hadoop集群搭建datenode为0问题的解决

hadoop集群搭建datenode为0问题的解决

搭建了一个小的实验集群，一共4台机器，一台namenode，三台datenode。运行start-all，发如今namenode上没有报不论什么错误，可是启动后直接显示datenode数量为0。

到datenode上查看日志。发现有这么个错误： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs。百度后发现出现这个问题通常是datenode中的数据文件出了问题。这时我想到自己的几台datenode是直接由namenode中的系统复制过来，而我并没有设置hadoop.tmp.dir參数，也就是默认存储在/tmp文件夹中，这就跟直接namenode单机时存储的暂时文件冲突了才造成了以上问题。解决方法也非常easy。将tmp文件夹中的过期暂时文件清楚，或者另外设置hadoop.tmp.dir參数指定新的暂时文件夹。
这里我选择了后者。由于我发现/tmp文件夹下的文件常常会受到损坏。

攻克了上面这个错误后，datenode最终有一个了，可是我有三台datenode。应该显示3个datenode啊！接着看另外两台的日志，发现里面有大量无法连接到namenode的错误。由于我设置namenode时用的是主机名而非ip地址。看来应该是由于hosts文件设置错误。打开/etc/hosts文件，果然namenode的主机名相应地址误设为了127.0.0.1，改过来之后，再次又一次格式化hdfs，start-all。最终能看到3个datenode了。真不easy。

总结一下，假设namenode可以成功启动，可是datenode显示为0，那么问题通常是出在datenode上。
这时候我们可曾经往datenode机器上查看/var/log/hadoop下的日志文件，里边应该会有一些错误提示，然后依据错误提示就能大体知道问题的所在。可能发生的问题无外乎下边几种：

1、datenode机器上的hadoop后台无法启动。出现这个问题的解决办法非常多样，比方笔者这次就遇上了tmp目录中存在失效文件的问题。

2、datenode无法与namenode通信。出现这样的问题一般都是网络设置有误，细致排查网络设置后应该就能找到解决的方法。假设datenode机器上的问题排除，那么出现这个错误也有可能是由于namenode上设置的监听地址有误造成的，能够在namenode上执行netstat命令看一看hadoop后台有没有在预期地址：port上监听。
相关阅读:
jQueryEasyUi行编辑打造增删改查
 css样式DEMO
jqueryEasyui常用代码
 Jquery easyui tree 一些常见操作
 EasyUI项目中的自定义JS
easyui里弹窗的两种表现形式
 EasyUI扩展方法
 JS-easyui 扩展easyui.datagrid，添加数据loading遮罩效果代码
 Being a Hero (hdu 3251 最小割好题)
AWS携手上海嘉定政府推出首个联合孵化器为创业公司拓展AWS云服务可用资源
原文地址：https://www.cnblogs.com/gcczhongduan/p/5274975.html