搭建了一个小的实验集群,一共4台机器,一台namenode,三台datenode。运行start-all,发如今namenode上没有报不论什么错误,可是启动后直接显示datenode数量为0。
到datenode上查看日志。发现有这么个错误: ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs。百度后发现出现这个问题通常是datenode中的数据文件出了问题。这时我想到自己的几台datenode是直接由namenode中的系统复制过来,而我并没有设置hadoop.tmp.dir參数,也就是默认存储在/tmp文件夹中,这就跟直接namenode单机时存储的暂时文件冲突了才造成了以上问题。解决方法也非常easy。将tmp文件夹中的过期暂时文件清楚,或者另外设置hadoop.tmp.dir參数指定新的暂时文件夹。
这里我选择了后者。由于我发现/tmp文件夹下的文件常常会受到损坏。
攻克了上面这个错误后,datenode最终有一个了,可是我有三台datenode。应该显示3个datenode啊!接着看另外两台的日志,发现里面有大量无法连接到namenode的错误。由于我设置namenode时用的是主机名而非ip地址。看来应该是由于hosts文件设置错误。打开/etc/hosts文件,果然namenode的主机名相应地址误设为了127.0.0.1,改过来之后,再次又一次格式化hdfs,start-all。最终能看到3个datenode了。真不easy。
总结一下,假设namenode可以成功启动,可是datenode显示为0,那么问题通常是出在datenode上。
这时候我们可曾经往datenode机器上查看/var/log/hadoop下的日志文件,里边应该会有一些错误提示,然后依据错误提示就能大体知道问题的所在。可能发生的问题无外乎下边几种:
1、datenode机器上的hadoop后台无法启动。出现这个问题的解决办法非常多样,比方笔者这次就遇上了tmp目录中存在失效文件的问题。
2、datenode无法与namenode通信。出现这样的问题一般都是网络设置有误,细致排查网络设置后应该就能找到解决的方法。假设datenode机器上的问题排除,那么出现这个错误也有可能是由于namenode上设置的监听地址有误造成的,能够在namenode上执行netstat命令看一看hadoop后台有没有在预期地址:port上监听。