在慕课网学习了一门《Hadoop基础及演练》网络课程,时间很短,一个多小时的课程大致了解了Hadoop生态圈。
Hadoop的核心设计有HDFS(分布式文件系统)和MapReduce(海量数据存储计算)
HDFS有三个核心概念,数据块,NameNode,DataNode。NameNode是存储,DataNode响应来自HDFS客户机的读写请求,还响应来自NameDode的创建,删除和复制。通常一个NameNode对应多个DataNode。
Hadoop生态圈几个框架
HBase:高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库。
关键词:主键,列族。
Spark:基于内存计算的大数据并行计算框架,是MapReduce的替代方案。