1、HDFS核心概念:
块
(1)为了分摊磁盘读写开销也就是大量数据间分摊磁盘寻址开销
(2)HDFS块比普通的文件块大很多,HDFS默认块大小为64MB,普通的只有几千kb
原因:1、支持面向大规模数据存储
2、降低分布式节点的寻址开销
好处:1、支持大规模文件存储(可以将一个大的文件进行切割,放到不同的机器上去存储,这样就可以突破单机存储上限)
2、简化系统设计
3、适合数据备份
两大核心组件:
1、名称节点(NameNode相当于数据目录)
底层FsImage和各项操作EditLog组成最新元数据
第二名称节点SecondaryNameNode主要有两个功能
1、解决EditLog不断增大问题
2、实现名称节点的冷备份
2、数据节点(DataNode数据节点)