问题描述
purple集群的yarn 集群对新提交作业不分配资源
事故起止时间:2018年xxx月02日 13时56分~2018年xxx月02日 xxx时
故障处理人:xxx
参与人员:xxx
处理过程
处理步骤和时间跨度
13:56 收到邮件报警,但是没有及时发现
16:30 用户方反馈作业提交缓慢
16:50 重启集群,观察恢复正常
18:30 问题复现 重启集群并查看log 发现10.103.8.xxx ip 异常,任务分配到此节点会导致作业运行一直等待资源,对此节点做下线处理,并重启异常作业
集群逐渐恢复
影响范围
此次事故造成的影响和损失 对上下游哪些系统或服务有影响(时间和范围)
1、离线任务下午2点至下午9点作业没有分配资源。
持续时间:7小时 (中间重启解决临时问题,实际故障时间4小时)
分析过程
• nodeManager节点 (老ip10.103.8.xxx 新ip 10.120.202.xxx) 更改ip 的临时配置,重启后失效,导致通讯异常。 现象为 rm节点不能能对它通讯,但是此节点能对rm 节点通讯。
导致rm节点误认为此节点正常,并一直分配作业资源请求。但是由于rm对此节点通讯有问题。分配资源命令没有到达次nm 节点。
最终导致yarn 集群作业提交后没有资源启动 container
思考总结
节点ip故障由于是非典型问题,常规监控难以发现问题。必须从维度进行监控
后续工作
1、 周末做好值班安排,出现问题及时解决。
2. 完善对集群监控