大数据之hadoop小文件存档

大数据之hadoop小文件存档
hadoop小文件存档
1.HDFS存档小文件弊端
每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需的磁盘容量和数据块的大小无关。例如，一个1M的文件设置为128M的块存储，实际使用的是1M的磁盘你空间。
2.解决存储小文件办法之一
HDFS存文档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存
3．案例实操
（1）需要启动YARN进程
```
[linyouyi@hadoop01 hadoop-2.7.7]$ sbin/start-yarn.sh
```
（2）归档文件
把/user/linyouyi/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/linyouyi/output路径下。
```
[linyouyi@hadoop01 hadoop-2.7.7]$ bin/hadoop archive -archiveName input.har –p /user/linyouyi/input /user/linyouyi/output
```
（3）查看归档
```
[linyouyi@hadoop01 hadoop-2.7.7]$ hadoop fs -lsr /user/linyouyi/output/input.har
[linyouyi@hadoop01 hadoop-2.7.7]$ hadoop fs -lsr har:///user/linyouyi/output/input.har
```
（4）解归档文件
```
[linyouyi@hadoop01 hadoop-2.7.7]$ hadoop fs -cp har:///user/linyouyi/output/input.har/* /user/linyouyi
```
相关阅读:
网线帘幕动画
 图片缩放/旋转/平移/设置分辨率
 贝塞尔样条
 线性梯度画刷
 画七彩五角星
 kafka安装
 在windows远程提交任务给Hadoop集群（Hadoop 2.6）
把Spark SQL的metadata存储到mysql
使用IDEA开发SPARK提交remote cluster执行
 Netty的Channel
原文地址：https://www.cnblogs.com/linyouyi/p/11310572.html

热门文章
光照效果
 积木效果
 百叶窗效果
 图片浮雕
 向区域中追加文本
 伽马曲线调整图片
 改变图片亮度
 改变图片的对比度
 设置/取消桌面背景
 放大镜