• 云计算之路-阿里云上:3个manager节点异常造成 docker swarm 集群宕机团队


    今天 11:29 - 11:39 左右,docker swarm 集群 3 个 manager 节点同时出现异常,造成整个集群宕机,由此给您带来很大的麻烦,请您谅解。

    受此次故障影响的站点有:博问闪存班级园子短信息招聘小组网摘新闻,openapi

    最近我们刚刚确认我们所有遇到的 docker swarm 不稳定问题都与部分节点的异常状况有关,即使是一直让我们非常头疼的 docker-flow-proxy 路由问题,也是因为路由容器所在的节点出现异常状况,只要通过阿里云控制台重启这台节点服务器,就能恢复正常。

    我们的 docker swarm 集群节点部署是这样的:5台阿里云2核4G服务器作为 manager 节点,1台阿里云4核8G服务器作为 worker 节点。基于这样的部署,我们想即使部分节点出现异常状况也不会带来影响,发现后重启节点服务器就行了。但没想到今天3个节点同时出现异常状况。。。最终通过阿里云控制台重启这些异常节点后恢复正常。

    对于节点的这种异常状况,我们目前毫无头绪,不知是我们的应用问题、还是docker的问题、还是阿里云服务器的问题,目前唯一的线索是:节点服务器持续运行时间越长,出现异常状况的概率越高,出现异常状况后通过阿里云控制台重启服务器立马恢复正常。

    对于目前无法确定是船的问题、还是集装箱的问题、还是货物的问题的困难处境,我们的临时解决方法是改进对节点服务器的监控,及时发现出现异常状况的节点进行重启操作。

    更新:根据我们的进一步分析,更保险的临时解决方法是当发现一个节点出现异常状况时要重启所有 manager 节点服务器。

  • 相关阅读:
    Linux:grep 命令
    Linux:sort
    Java中路径相关的获取方式
    Spring boot 配置 Tomcat 临时文件缓存目录
    zabbix :web 界面显示的监控项值为0或者空
    Maven:禁止编码指定类型的资源文件
    Maven:element '******' cannot have character [children]
    MySQL:数据库名或者数据表名包含-
    Linux:sed
    Lucene 6.0下使用IK分词器
  • 原文地址:https://www.cnblogs.com/cmt/p/8566696.html
Copyright © 2020-2023  润新知