近几日生产环境总是偶发的出现数据库连接失败的错误,一开始并未引起重视,因为反馈的人很少,而且应用服务器与数据库服务器都处在同一机房的内网环境,相互之间的访问应该是很稳定的。直到早上有几分钟的时间里出现的概率很大(基本上每10次请求就有一次出错),检查数据库状况是良好的,负载并不高,监控了user conection计数器的值也很低,还不到150。为了应急,先尝试了一下切换故障群集的活跃节点,谁料想居然就正常了。后面看群集日志,发现有持续的错误:
可以看到,该错误每15分钟发生一次。自切换活跃节点后不再出现。很可惜的是,负责基础架构的同事也未能查明是什么原因,作为尝试的解决方案,在网络适配器设置中添加了多个备用DNS服务器。