一、问题描述
1. cm监控告警
cloudera-manager 触发告警,该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系。原因多半是cloudera-scm-agent服务挂掉。
2. 问题原因
那么就来看cloudra-scm-agent是因为什么原因挂掉了,查看日志:
vim /var/log/cloudera-scm-agent/cloudera-scm-agent.log
搜索ERROR,搜到如下错误:
Timed out waiting for worker process collecting filesystem usage to complete.
This may occur if the host has an NFS or other remote filesystem that is not responding to requests in a timely fashion.
Current nodev filesystems: /dev/shm,/run,/sys/fs/cgroup,/run/user/0,/run/user/1000,
/run/user/979,/run/cloudera-scm-agent/process,/run/user/1036,/run/user/1007
如果CDH集群中的节点上有挂载NFS到某个目录,当NFS服务异常导致该目录不可用时,Cloudera Management Service的Host Monitor服务可能会抛出以下错误
二、问题解决
1. 修改Agent配置文件
vim /etc/cloudera-scm-agent/config.ini
2. 编辑以下内容
monitored_nodev_filesystem_types=tmpfs
3. 重启agent服务
service cloudera-scm-agent restart