• caseStudy-2018xxxx-yarn故障&解决办法


    问题描述

    purple集群的yarn 集群对新提交作业不分配资源
    事故起止时间:2018年xxx月02日 13时56分~2018年xxx月02日 xxx时
    故障处理人:xxx
    参与人员:xxx

    处理过程

    处理步骤和时间跨度
    13:56 收到邮件报警,但是没有及时发现
    16:30 用户方反馈作业提交缓慢
    16:50 重启集群,观察恢复正常
    18:30 问题复现 重启集群并查看log 发现10.103.8.xxx ip 异常,任务分配到此节点会导致作业运行一直等待资源,对此节点做下线处理,并重启异常作业
    集群逐渐恢复

    影响范围

    此次事故造成的影响和损失 对上下游哪些系统或服务有影响(时间和范围)
    1、离线任务下午2点至下午9点作业没有分配资源。
    持续时间:7小时 (中间重启解决临时问题,实际故障时间4小时)
    分析过程
    • nodeManager节点 (老ip10.103.8.xxx 新ip 10.120.202.xxx) 更改ip 的临时配置,重启后失效,导致通讯异常。 现象为 rm节点不能能对它通讯,但是此节点能对rm 节点通讯。
    导致rm节点误认为此节点正常,并一直分配作业资源请求。但是由于rm对此节点通讯有问题。分配资源命令没有到达次nm 节点。
    最终导致yarn 集群作业提交后没有资源启动 container
    思考总结
    节点ip故障由于是非典型问题,常规监控难以发现问题。必须从维度进行监控

    后续工作

    1、 周末做好值班安排,出现问题及时解决。
    2. 完善对集群监控

  • 相关阅读:
    gdb调试工具
    一步步理解Linux之中断和异常
    英语感受 5月份英语思维
    2013年6月4日星期二
    2013年5月29日星期三
    2013年6月3日星期一
    第22周六晚上
    2013年5月26日星期日
    2013年5月28日20:16:21
    2013年6月2日星期日
  • 原文地址:https://www.cnblogs.com/lizherui/p/13838817.html
Copyright © 2020-2023  润新知