Hadoop 2.x简介

Hadoop 2.x简介
Hadoop 2.0产生背景
- Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题
- HDFS存在的问题
  - NameNode单点故障，难以应用于在线场景
  - NameNode压力过大，且内存受限，影响系统扩展性
- MapReduce存在的问题
  - JobTracker访问压力大，影响系统扩展性
  - 难以支持除MapReduce之外的计算框架，比如Spark 、Storm等
　MapReduce是离线计算框架，计算时间会比较长
　Spark是内存计算框架，更快
　Storm是流计算框架，可实时获取计算结果

Hadoop 1.x 与Hadoop 2.x
- Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成
  - HDFS : NN Federation、HA;
  - MapReduce : 运行在YARN上的MR
  - YARN : 资源管理系统（内存、CPU资源）
Federation把元数据分成两个独立的NameNode去工作。
YARN知道任何一台机器的使用情况，在执行任务的时候，首先去YARN上申请，YARN 分配到某台机器上去执行，可做到资源不浪费

HDFS存储的数据可由MapReduce进行计算，也可以由其它的计算框架计算

HDFS 2.x优点
- 解决HDFS 1.0中单点故障和内存受限问题
- 解决单点故障
  - HDFS HA : 通过主备NameNode解决（只有一个NameNode正常工作，其它都是备用）
  - 如果主NameNode发生故障，则切换到备NameNode上
- 解决内存受限问题
  - HDFS Federation(联邦)
  - 水平扩展，支持多个NameNode
  - 每个NameNode分管一部分目录（相互独立）
  - 所有NameNode共享所有DataNode存储资源
- 2.x仅是架构上发生了变化，使用方式不变
- 对HDFS使用者透明
- HDFS 1.X中的命令和API仍可以使用
相关阅读:
MySQL中文显示乱码
 mysql 存储引擎 InnoDB 与 MyISAM 的区别和选择
 mysql 分表的3种方法
 mysql 清空或删除表数据后，控制表自增列值的方法
 MySQL 下优化SQL语句的一些经验
 mysql 常用命令
 MySQL获得指定数据表中auto_increment自增id值的方法及实例
 SQL Server Alwayson创建代理作业注意事项
 LinkedList子类与Queue接口
 List接口
原文地址：https://www.cnblogs.com/EnzoDin/p/7248010.html

Hadoop 2.0产生背景

Hadoop 1.x 与Hadoop 2.x

HDFS 2.x优点