一、HDFS简介
1.HDFS:Hadoop distributed file system
一个分布式文件系统
基于流数据模式访问和处理超大文件的需要而开发
适合应用在大规模数据集上
2. 优点
处理超大文件
能用来存储管理PB级的数据
处理非结构化数据
流式的访问数据
一次写入、多次读写
运行于廉价的商用机器集群上
可运行在低廉的商用硬件集群上
故障时能继续运行且不让用户观察到明显的中断
3. 局限性
不适合处理低延迟数据访问
HDFS是为了处理大型数据集分析任务的,主要是为了达到高的数据吞吐量而设计的
对于低延迟时的访问需求,HBASE是更好的选择
无法高效存储大量的小文件
小文件会给Hadoop的扩展性和性能带来严重问题
利用sequencefile、mapfile等方式归档小文件
不支持多用户写入及任意修改文件
只有一个写入着,只能执行追加操作
不支持多用户对同一文件的写操作,以及在文件任意位置进行修改
4. HDFS特性
高容错,可扩展性以及可配置性强
跨平台
shell命令接口
机架感应功能
负载均衡
web界面
5. HDFS目标
检测和快速恢复硬件故障
故障的检测和快速自动恢复是HDFS的一个核心目标
流式数据访问
设计成适合进行批量处理
重视数据吞吐量,而不是数据访问的反应速度
大规模数据集
支持大文件存储
一个单一的HDFS实例能支撑数以千万计的文件
简化一致性模型
对文件实行一次性写入,多次读取的访问模式
6. HDFS目标
移动计算代价比移动数据代价低
可移植性
通信协议
未完待续。。。