云计算之路-阿里云上：3个manager节点异常造成 docker swarm 集群宕机团队

云计算之路-阿里云上：3个manager节点异常造成 docker swarm 集群宕机团队

今天 11:29 - 11:39 左右，docker swarm 集群 3 个 manager 节点同时出现异常，造成整个集群宕机，由此给您带来很大的麻烦，请您谅解。

受此次故障影响的站点有：博问，闪存，班级，园子，短信息，招聘，小组，网摘，新闻，openapi

最近我们刚刚确认我们所有遇到的 docker swarm 不稳定问题都与部分节点的异常状况有关，即使是一直让我们非常头疼的 docker-flow-proxy 路由问题，也是因为路由容器所在的节点出现异常状况，只要通过阿里云控制台重启这台节点服务器，就能恢复正常。

我们的 docker swarm 集群节点部署是这样的：5台阿里云2核4G服务器作为 manager 节点，1台阿里云4核8G服务器作为 worker 节点。基于这样的部署，我们想即使部分节点出现异常状况也不会带来影响，发现后重启节点服务器就行了。但没想到今天3个节点同时出现异常状况。。。最终通过阿里云控制台重启这些异常节点后恢复正常。

对于节点的这种异常状况，我们目前毫无头绪，不知是我们的应用问题、还是docker的问题、还是阿里云服务器的问题，目前唯一的线索是：节点服务器持续运行时间越长，出现异常状况的概率越高，出现异常状况后通过阿里云控制台重启服务器立马恢复正常。

对于目前无法确定是船的问题、还是集装箱的问题、还是货物的问题的困难处境，我们的临时解决方法是改进对节点服务器的监控，及时发现出现异常状况的节点进行重启操作。

更新：根据我们的进一步分析，更保险的临时解决方法是当发现一个节点出现异常状况时要重启所有 manager 节点服务器。
相关阅读:
.NET中使用嵌入的资源
 C#操作注册表
 .Net中大数加减乘除运算
 CYQ.Data 轻量数据层之路 V4.5 版本发布[更好的使用体验，更优的缓存机制]
关于性能比较的应用误区
 秋色园QBlog技术原理解析：性能优化篇：打印页面SQL，全局的SQL语句优化(十三)
CYQ.DBImport 数据库反向工程及批量导数据库工具 V1.0 发布
 框架设计之菜鸟漫漫江湖路系列一：菜鸟入门
 MySql折腾小记二：text/blog类型不允许设置默认值，不允许存在两个CURRENT_TIMESTAMP
CYQ.Data.Xml XmlHelper 助你更方便快捷的操作Xml/Html
原文地址：https://www.cnblogs.com/cmt/p/8566696.html