前言
最近在群里两次看到出现mon地址不对的问题,都是显示0.0.0.0:0地址,如下所示:
[root@lab8106 ceph]# ceph -s
cluster 3137d009-e41e-41f0-b8f8-5cb574502572
health HEALTH_ERR
1 mons down, quorum 0,1,2 lab8106,node8107,lab104
monmap e2: 4 mons at {lab104=192.168.10.4:6789/0,lab8106=192.168.8.106:6789/0,lab8107=0.0.0.0:0/2,node8107=192.168.8.107:6789/0}
这个之前偶尔会看到有出现这个问题,但是自己一直没碰到过,想看下是什么情况下触发的,在征得这个cepher的同意后,登录上他的环境检查了一下,发现是主机名引起的这个问题
问题复现
在部署的过程中,已经规划好了主机名,而又去修改了这个机器的主机名的情况下就会出现这个问题
比如我的这个机器,开始规划好lab8107主机名是这个,然后再lab8107上执行hostname node8107,就会触发这个问题
这个在deploy的部署输出日志中可以看得到
[lab8107][WARNIN] ********************************************************************************
[lab8107][WARNIN] provided hostname must match remote hostname
[lab8107][WARNIN] provided hostname: lab8107
[lab8107][WARNIN] remote hostname: node8107
[lab8107][WARNIN] monitors may not reach quorum and create-keys will not complete
[lab8107][WARNIN] ********************************************************************************
可以看到 provided hostname: lab8107 而remote hostname: node8107,就会出现这个问题了
如果下次出现这个问题,首先就检查下规划的mon的主机名与真实的主机名是否一致
总结
新手在部署环境的时候,经常会犯一些比较基础的错误,这个是一个经验积累的过程,当然对于已经比较熟悉的cepher来说,也去尝试多看下各种异常问题,这个对于以后定位异常还是很有帮助的
变更记录
Why | Who | When |
---|---|---|
创建 | 武汉-运维-磨渣 | 2017-06-06 |