Hadoop生态系统的特点
1)源代码开源
2)社区活跃,参与者多
3)涉及分布式存储和计算的各方面
4)已得到企业界的验证
Hadoop构成
1) 分布式文件系统HDFS(Hadoop Distributed File System)
------------提供了高可靠性、高扩展性和高吞吐率的数据存储服务
2)资源管理系统YARN(Yet Another Resource Negotiator)
-----------负责集群资源的统一管理和调度
3)分布式计算框架(MapReduce)
-----------具有易于编程、高容错性和高扩展性等优点
分布式文件系统HDFS
来源于Google的GFS论文
- 2003年10月发表
- HDFS是GFS克隆版
HDFS特点
- 良好的扩展性(增加机器进行扩展)
- 高容错性(存储了多份,数据有备份)
- 适合PB即以上海量数据的存储
基本原理
- 将文件切分成等大的数据块,存储到多态机器上
- 将数据切分、容错、负载均衡等功能透明化
- 可将HDFS看成一个容量巨大、具有高容错性的磁盘
典型应用场景
- 海量数据的可靠性存储
- 数据归档
资源管理系统YARN
什么是YARN
- Hadoop 2.0新增系统
- 负责集群的资源管理和调度
- 使得多种计算框架可以运行在一个集群中
YARN 的特点
- 良好的扩展性、高可用性
- 对多种类型的应用程序进行统一管理和调度
- 自带了多种多用户调度器,适合共享集群环境
分布式计算框架MapReduce
源自于Google的MapReduce论文
- 2004年12月发表
- Hadoop MapReduce 是Google MapReduce 克隆版
MapReduce特点
- 良好的扩展性
- 高容错性
- 适合PB级以上海量数据的离线处理
其它
- 基于MR的数据仓库Hive
- 数据分析工具Pig
- 数据挖掘仓库Mahout
- 分布式数据库HBase
- 分布式协作服务Zookeeper
- 数据同步工具Sqoop
- 日志收集工具Flume