caseStudy-2018xxxx-yarn故障&解决办法

问题描述

purple集群的yarn 集群对新提交作业不分配资源
事故起止时间：2018年xxx月02日 13时56分~2018年xxx月02日 xxx时
故障处理人：xxx
参与人员：xxx

处理过程

处理步骤和时间跨度
13:56 收到邮件报警，但是没有及时发现
16:30 用户方反馈作业提交缓慢
16:50 重启集群，观察恢复正常
18:30 问题复现重启集群并查看log 发现10.103.8.xxx ip 异常，任务分配到此节点会导致作业运行一直等待资源，对此节点做下线处理，并重启异常作业
集群逐渐恢复

影响范围

此次事故造成的影响和损失对上下游哪些系统或服务有影响（时间和范围）
1、离线任务下午2点至下午9点作业没有分配资源。
持续时间：7小时 (中间重启解决临时问题，实际故障时间4小时)
分析过程
• nodeManager节点（老ip10.103.8.xxx 新ip 10.120.202.xxx）更改ip 的临时配置，重启后失效，导致通讯异常。现象为 rm节点不能能对它通讯，但是此节点能对rm 节点通讯。
导致rm节点误认为此节点正常，并一直分配作业资源请求。但是由于rm对此节点通讯有问题。分配资源命令没有到达次nm 节点。
最终导致yarn 集群作业提交后没有资源启动 container
思考总结
节点ip故障由于是非典型问题，常规监控难以发现问题。必须从维度进行监控

后续工作

1、周末做好值班安排，出现问题及时解决。
2. 完善对集群监控

相关阅读:
Git
Entropy, relative entropy and mutual information
2021.5.3 团队冲刺第六天
2021.5.2 团队冲刺第五天
2021.5.1 团队冲刺第四天
2021.4.30 团队冲刺第三天
2021.4.29 团队冲刺第二天
2021.4.28 团队冲刺第一天
2021.4.27
2021.4.26

原文地址：https://www.cnblogs.com/lizherui/p/13838817.html