hadoop 知识点 - 润新知

hadoop 知识点
- HDFS 命令
命令说明

fsck 检查文件的完整性

start-balancer.sh 重新平衡HDFS

hdfs dfs -copyFromLocal 从本地磁盘复制文件到HDFS
- hadoop 配置
  有两种配置文件：
  一种是-default.xml（只读，默认的配置）
  一种是-site.xml（替换default中的配置）
  core-site.xml 配置公共属性
  hdfs-site.xml 配置HDFS
  yarn-site.xml 配置YARN
  mapred-site.xml 配置MapReduce
  配置文件应用的顺序：
1. 在JobConf中指定的
2. 客户端机器上的**-site.xml配置
3. slave节点上的**-site.xml配置
4. **-default.xml中的配置
  如果某个属性不想被覆盖，可以将其设置成final
```
<property>
    <name>{PROPERTY_NAME}</name>
    <value>{PROPERTY_VALUE}</value>
    <final>true</final>
</property>
```
- YARN: 分布式资源管理
- 每个block块都会被复制到多台机器，默认复制3份
- NameNode：存储文件的metadata，运行时所有数据都保存到内存，整个HDFS可存储的文件数受限于NameNode的内存大小
- 一个Block在NameNode中对应一条记录（一般一个block占用150字节），如果是大量的小文件，会消耗大量内存。
  同时map task的数量是由splits来决定的，所以用MapReduce处理大量的小文件时，就会产生过多的map task，线程管理开销将会增加作业时间。处
  理大量小文件的速度远远小于处理同等大小的大文件的速度。因此Hadoop建议存储大文件。
- NameNode 数据会定时保存到本地磁盘，但block的位置信息不会；block的位置信息是由DataNode注册时上报和运行时维护（NameNode中与DataNode相关的信息并不保存到NameNode的文件系统中，而是NameNode每次重启后，动态重建）
- Secondary NameNode：定时与NameNode进行同步（定期合并文件系统镜像和编辑日志，然后把合并后的传给NameNode，替换其镜像，并清空编辑日志，类似于CheckPoint机制），但NameNode失效后仍需要手工将其设置成主机
- DataNode启动时会向NameNode报告当前存储的数据块信息，后续也会定时报告修改信息
- DataNode之间会进行通信，复制数据块，保证数据的冗余性
- 文件写完后（客户端关闭），NameNode提交文件（这时文件才可见，如果提交前，NameNode垮掉，那文件也就丢失了。fsync：只保证数据的信息写到NameNode上，但并不保证数据已经被写到DataNode中）
- HDFS 读文件：
1. 客户端向NameNode发送读取请求
2. NameNode返回文件的所有block和这些block所在的DataNodes（包括复制节点）
3. 客户端直接从DataNode中读取数据，如果该DataNode读取失败（DataNode失效或校验码不对），则从复制节点中读取
  （如果读取的数据就在本机，则直接读取，否则通过网络读取）
- HDFS - 可靠性
1. DataNode可以失效
  DataNode会定时发送心跳到NameNode。如果在一段时间内NameNode没有收到DataNode的心跳消息，则认为其失效。此时NameNode就会将该节点的数据（从该节点的复制节点中获取）复制到另外的DataNode中
2. 数据可以毁坏
  无论是写入时还是硬盘本身的问题，只要数据有问题（读取时通过校验码来检测），都可以通过其他的复制节点读取，同时还会再复制一份到健康的节点中
3. NameNode不可靠
- MapReduce 架构：
1. JobTracker: 负责资源管理，跟踪资源消耗和可用性，作业生命周期管理（调度作业任务，跟踪进度，为任务提供容错）
2. TaskTracker: 加载或关闭任务，定时报告任务状态
- YARN 架构：
  YARN 就是将JobTracker的职责进行拆分，将资源管理和任务调度监控拆分成独立的进程：一个全局的资源管理和一个每个作业的管理（ApplicationMaster）。
  ResourceManager和NodeManager提供了计算资源的分配和管理，而ApplicationMaster则完成应用程序的运行。
1. ResourceManager: 全局资源管理和任务调度
2. NodeManager: 单个节点的资源管理和监控
3. ApplicationMaster: 单个作业的资源管理和任务监控
4. Container: 资源申请的单位和任务运行的容器
相关阅读:
ESFramework介绍之（32）―― Tcp客户端核心组件关系图
 Java －－在Eclipse上使用XFire开发WebService
DTS开发记录（1）－－系统总体结构
 ESFramewor使用技巧（3）－－在插件中使用Spring.net
DTS开发记录（序）
给关注ESFramework的朋友们 2006.06.25
ESFramework介绍之（34）―― ITcpServerAgent和IUdpServerAgent组件关系图
 Java －－在Eclipse上使用Hibernate
【C#2.0】点滴（不断补充中......）
Java －－在Eclipse上使用Spring
原文地址：https://www.cnblogs.com/cag2050/p/8127091.html

命令	说明
fsck	检查文件的完整性
start-balancer.sh	重新平衡HDFS
hdfs dfs -copyFromLocal	从本地磁盘复制文件到HDFS