大数据面试知识点分析（一）

大数据面试知识点分析（一）
转自：https://blog.csdn.net/qq_26803795/article/details/79109240
为了保证效率和质量，每篇文章发布6个知识点，由简单及难，我们从HDFS开始：

1）如何杀死一个job
1. hadoop job –list
2. ./hadoop job -kill job_201212111628_11166
2）删除hdfs 上的/tmp/xxx目录
1. hadoop dfs -rm /user/cl/temp/a.txt
2. hadoop dfs -rmr /user/cl/temp
3）加入一个新的存储节点和删除一个计算节点，需要刷新集群状态命令，怎么操作

HDFS增加节点

方式1：静态添加datanode，停止namenode方式

1.停止namenode
2.修改slaves文件，并更新到各个节点
3.启动namenode
4.执行Hadoop balance命令。（此项为balance集群使用，如果只是添加节点，则此步骤不需要）

–

方式2：动态添加datanode，不停namenode方式

1.修改slaves文件，添加需要增加的节点host或者ip，并将其更新到各个节点
2.在datanode中启动执行启动datanode命令。命令：sh hadoop-daemon.sh start datanode
3.可以通过web界面查看节点添加情况。或使用命令：sh hadoop dfsadmin -report
4.执行hadoop balance命令。（此项为balance集群使用，如果只是添加节点，则此步骤不需要）

针对第4点，start-balancer.sh可以执行-threshold参数。
-threshold参数是指定平衡的阈值。
-threshold的默认是10，即每个datanode节点的实际hdfs存储使用量/集群hdfs存储量

举例：
datanode hdfs使用量1.2G；
集群总hdfs存储量10T即10G；
则t值为1.2/10 = 0.12；
当执行balance的-t参数小于0.12时，集群进行balance；
命令为：start-balancer.sh -threshold 0.1

注：
1. balance命令可以在namenode或者datanode上启动；
可以随时停止balance命令。
balance的默认带宽是1M/s。
2. slave文件是用于重启时使用。集群的start和stop需要读取slave文件。
启用datanode时只要在hdfs-site中配置了namenode位置，就可以将信息push给namenode。
查看namenode的http管理界面，可查看节点添加情况。

HDFS删除节点

方式1：通过dead方式（namenode上）：

1. sh hadoop dfsadmin -refreshServiceAcl

说明：dead方式并未修改slave文件和hdfs-site文件。
所以在集群重启时，该节点不会被添加到namenode的管理中。
此次在namenode上进行，其他节点可另行实验。，该命令会将该节点状态置为dead。
-

方式2：通过decommission方式：

a) 修改hdfs-site，添加exclude字段中的排除的节点。
b) 执行sh hadoop dfsadmin -refreshNodes，强制刷新。
c) 查看节点状态，该节点的状态为decommission。

说明：decommission方式修改了hdfs-site文件，未修改slave文件。
所以集群重启时，该节点虽然会被启动为datanode，但是由于添加了exclude，所以namenode会将该节点置为decommission。
此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用。

注：
1. 如果在某个节点单独停止datanode，那么在namenode的统计中仍会出现该节点的datanode信息。
此时可通过dead或者decommission（退役）方式下线机器。

4）简述一下hdfs的数据压缩算法，工作中用的是那种算法，为什么？

1.在HDFS之上将数据压缩好后，再存储到HDFS

2.在HDFS内部支持数据压缩，这里又可以分为几种方法：
2.1 压缩工作在DataNode上完成，这里又分两种方法：
    2.1.1 数据接收完后，再压缩
       这个方法对HDFS的改动最小，但效果最低，只需要在block文件close后，调用压缩工具，将block文件压缩一下，然后再打开block文件时解压一下即可，几行代码就可以搞定

    2.1.2 边接收数据边压缩，使用第三方提供的压缩库
        效率和复杂度折中方法，Hook住系统的write和read操作，在数据写入磁盘之前，先压缩一下，但write和read对外的接口行为不变，比如：原始大小为100KB的数据，压缩后大小为10KB，当写入100KB后，仍对调用者返回100KB，而不是10KB
2.2 压缩工作交给DFSClient做，DataNode只接收和存储
        这个方法效果最高，压缩分散地推给了HDFS客户端，但DataNode需要知道什么时候一个block块接收完成了。
推荐最终实现采用2.2这个方法，该方法需要修改的HDFS代码量也不大，但效果最高。

5）Datanode在什么情况下不会备份？

hadoop保存的三个副本如果不算备份的话，那就是在正常运行的情况下不会备份，也是就是在设置副本为1的时候不会备份，说白了就是单台机器！！

6）三个 datanode，当有一个datanode出现错误会怎样？

第一不会给储存带来影响，因为有其他的副本保存着，不过建议尽快修复，第二会影响运算的效率，机器少了，reduce在保存数据时选择就少了，一个数据的块就大了所以就会慢。

Datanode以数据块作为容错单位通常一个数据块会备份到三个datanode上，如果一个datanode出错，则回去其他备份数据块的datanode上读取，并且会把这个datanode上的数据块再复制一份以达到备份的效果！
相关阅读:
TinyXML 2.4.2发布
 OpenAL 1.1 Release
Microsoft ship Visual Studio 2005 and .NET 2.0
Boost中文站
 第一次Blog
POJ3020 Antenna Placement 二分图匹配+拆点构图
 SGU438 The Glorious Karlutka River =) 最大流（动态流问题）
HDU2732 Leapin' Lizards 最大流
 SGU176 Flow construction 有上下界的最小流
 POJ1459 Power Network 网络流
原文地址：https://www.cnblogs.com/tongxupeng/p/10259524.html

大数据面试知识点分析（一）

为了保证效率和质量，每篇文章发布6个知识点，由简单及难，我们从HDFS开始：

HDFS增加节点

方式1：静态添加datanode，停止namenode方式

方式2：动态添加datanode，不停namenode方式

HDFS删除节点

方式1：通过dead方式（namenode上）：

方式2：通过decommission方式：