CM记录-CDH故障修复处理记录

CDH大数据集群修复记录

1）cm web打不开，查看监听7180端口产生了很多进程，于是kill进程；重启cloudera-cmf-server服务，几秒钟就挂了，查看cloudera-scm-server运行日志是由于mysql服务挂了。

2）查看mysql错误日志，mysql是默认安装在/根分区下的，由于根分区空间不足，无法启动mysql；清理了一些垃圾，重启mysql成功了；重启cloudera-cmf-server成功，但是各个组件出现了很多配置问题；于是重启所有组件，不能重启，究其原因，因与主节点失去联系太久，日志报很多错误；于是重启主机下各个组件，也不能重启，现在各个组件都无法启动；但是进程还在，过了一天后，各个进程死掉了。

遇到问题：a.系统分区空间不足，删掉垃圾文件

b.默认的/var/log日志文件空间不足，更改路径

c.无法检测各个主机JAVA_HOME，配置JAVA主目录

d.权限问题：日志文件夹drwxrwxrwx依次代表u,g,o,组别和拥有者

e.版本不匹配的问题：cm-guid删掉，重启所有agent

f.生成的/opt/lib/下的数据文件可以删除

g.关闭防火墙、关闭SELINUX安全控制

3）重启cloudera-scm-server:/opt/cm-5.10.0/etc/init.d/cloudera-scm-server restart

4）查看日志分析和网上百度，修复各个主机配置、终于发现原来是代理agent id不一样的问题：

删除各个主机下：rm /opt/cm-5.10.0/lib/cloudera-scm-agent/cm-guid

重启各个主机下：/opt/cm-5.10.0/etc/init.d/cloudera-scm-agent restart

5)重启cloudera manager service服务

6）重启各个组件（hdfs/hbase/hive/yarn等）服务

7）注意各个组件的log日志文件路径和lib生成的文件以及所需要的JDK根目录是否配置

8）学会使用cm web端查看日志，搜索错误信息

相关阅读:
听说这是互联网时代100本必读书单，你看过几本？
HttpURL连接远程serverGet和Post方式请求并返回数据
如何才干高速成为优秀的程序猿
android学习笔记NO.5
Linux 内核开发
scikit-learn：3.3. Model evaluation: quantifying the quality of predictions
多个client与一个server端通信的问题
[Android Studio] 取消引用库打包出现异常-- provided dependencies can only be jars
2016.3.16__CSS3_选择器_边框_背景_蒙版mask__第九天
Android Studio：Multiple dex files define Landroid/support/annotation/AnimRes

原文地址：https://www.cnblogs.com/xinfang520/p/8126392.html