• Zabbix监控流量异常(偶尔超出交换机限制)


    前提:

    近期业务做了集群的流量汇总,整体没有问题。后面慢慢优化一些参数项。但是这两天发现,集群流量数据增大,业务正常。

    问题:

    zabbix和prometheus 监控网卡,流量异常增大,超出限制,每次2分钟,偶尔性触发

    看图,这个和7月对比,简介翻了几倍,但是业务没有增长,这就很奇怪了

     

     

    上面介绍相关截图。

    解决:

    首先以为业务导致网卡过大加载,导致流量增大,我们使用  ifstat-1.1.tar.gz  工具记录每一秒的网卡速度,记录一晚上再看。

    分析上图,虽然流量有超过100M的,但是网卡是能够支撑的。没有zabbix和prometheus显示的那么恐怖。

    思考

    我和大佬分交流一下。说是zabbix的单位转换,要加8倍,我也是添加了的

     

    嗯。。。。。。。。。。。。。。。。。。。。。正常

    大佬建议让我使用snmp监控对比一下,思路不错,可以搞。直接部署上去对比了

    分析

    snmp对比一下

     zabbix的(还是这么高)

    snmp的(这个是正常的)

     很明显,这是snmp是准确的。但是为什么会这样

    结果:

    首先,业务正常,服务器正常,现在就是zabbix不正常,怀疑是zabbix的问题

    回想一下,在数据量增加前做了什么操作。

    之前,我当时增加一批监控指标,因为监控点比较重要,所有设置抓取时间为10s。谁知道这个10s就是罪魁祸首。集群内部机器较多,可能会产生数据积压。

    后续

    取消关联模板,监控整体流量,确定无虚假流量

    调整监控项的抓取指标为:1m  再次关联模板正常

    人生得意须尽欢,莫使金樽空对月。 天生我材必有用,千金散尽还复来。
  • 相关阅读:
    二级JAVA考证笔记
    JAVA异常处理机制
    notepad++安装nppFTP
    nginx conf_ctx ****
    ngx_string()错误分析
    nginx
    char *p[] 和char**的思考
    LeetCode.接雨水
    LeetCode.atoi
    LeetCode.数字转罗马数字
  • 原文地址:https://www.cnblogs.com/heian99/p/15173007.html
Copyright © 2020-2023  润新知