情景:
zy的链路监控突然都恢复,而且在哪个时间段zabbix中显示回复,也发送了告警,但是实际上告警并没有发出来。这是不可能的情况,应该是redis缓存中的数据都被清空了,没有认为干预,需解决问题
思路:
先检查代码,代码中只要有cache.get,就有cache.set,而且celery的周期是30s,那几个键的声明周期默认都是300s,不存在内存过期的情况。然后确认代码无误,开始检查zabbix的问题历史,检查zabbix的审计报表,检查消息平台的celery日志,检查系统日志,发现在21.02zabbix中消息发送动作完成,但是消息平台并没有任何告警过来,随即检查监控系统的celery日志,20.50-21.10之间celery给报错了,问题就出现在这里,。
消息平台celery
消息平台日志
zabbix告警记录在同一个点都给恢复了,
监控系统celery的日志
解决:
注释掉产生错误的task任务,保证celery的正常运行。
其实这个报错有一段时间了,但是那时候没有影响正常业务,以为没事,然后就给爆了。小问题不能心里给他过了,不然肯定会炸。一定要解决。