• zabbix-agent TIME_WAIT 过多


    一、系统环境

    操作系统: Centos 6.4 64bit
    zabbix-agent 版本: Zabbix agent v2.2.7 (revision 50148) (24 October 2014)

    二、出现的问题

    zabbix-agent机器上,发现TIME_WAIT过多

    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59237        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59783        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59643        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59509        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59221        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59329        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59361        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59730        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59255        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59300        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59344        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59400        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59326        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59209        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59288        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59282        TIME_WAIT   
    tcp        0      0 xxx.xx.161.183:10050        xxx.xx.161.174:59418        TIME_WAIT   
    [root@ns_xxx.xx.161.183 ~]$ netstat  -an |grep -i time|grep 10050|grep -v 5432|wc -l
    89
    

    三、为什么会出现这么多TIME_WAIT

    下表说明了zabbix是如何通信的, 它会教给你基本的tcp协议的知识。如果你看不懂这个表的内容,我建议你可以读下<TCP/IP 详解1>!
    表格中的state是TCP连接在agent和server不同阶段时的状态。我们假设每个阶段,agent和server都会得到正确的状态!
    如果你用tcpdump捕获通信数据,你可以转储到文件,下载桌面,然后通过Wireshark 来查看!

    passive agent通信的过程如下:

    Number Connection state agent Connection state server Direction TCP flags Purpose of TCP segment
    1 LISTEN SYN_SENT Agent<-Server SYN 初始化TCP连接,第一次tcp握手
    2 SYN_RECVD SYN_SENT Agent->Server SYN, ACK 接受连接
    3 SYN_RECVD ESTABLISHED Agent<-Server ACK 连接已经建立
    4 ESTABLISHED ESTABLISHED Agent<-Server PSH, ACK zabbix server发送item key 给agent
    5 ESTABLISHED ESTABLISHED Agent->Server ACK Agent 确认收到
    6 ESTABLISHED ESTABLISHED Agent->Server PSH, ACK agent发送对应item key的数据
    7 FIN_WAIT_1 ESTABLISHED Agent->Server FIN, PSH, ACK 当没有其它数据要发送的时候, agent 关闭连接
    8 FIN_WAIT_1 CLOSE_WAIT Agent<-Server ACK
    9 FIN_WAIT_2 LAST_ACK Agent<-Server FIN, ACK
    10 TIME_WAIT LAST_ACK Agent->Server ACK 连接已经完全关闭
    11 CLOSED CLOSED - - 最终,两边的状态都为CLOSED
    • 1: tcp连接是通过socket通信的,每个socket都是为唯一的,address:port--address:port
    • 2: 第二行的SYN/ACK如果没有发送,那么第一步的SYN会重新发送。在缺省的timeout设置中,如果丢了这个SYN/ACK过程,连接将会被重置(RST),并且这个获取数据的过程将会失败!
    • 3: 当前的连接是全双工的工作模式
    • 4: PUSH标志表明当前正在传送数据!
    • 7: 没有其它事要做,关闭连接。在接下来的关闭过程中,agent会保留TIME_WAIT状态!请去看下TCP连接的3次握手,和TCP关闭的4次挥手过程。 这里并不是正确的连接关闭过程。
    • 8: 带有FIN标志的数据报会被立刻确认,然后zabbix server 立刻知道这个连接已经关闭。
    • 9: zabbix server确认连接关闭的时候,它也会立刻发送一个带FIN的数据包
    • 10: 立刻确认第九步的FIN,到此为止,这个连接就关闭了!
    • 11:passive zabbix agent的连接过程,并没有第十一步的数据报!当第十步中,server端确认连接关闭,并转变状态为closed之后, agent会把TIME_WAIT挂起两分钟。 这意味着这个连接在两分钟内是不可重用的。

    注意:
    使用TCP协议,是为了在不可靠的网络环境中创建可靠的连接!
    zabbix并不支持UDP和长连接的方式(persistent connection)

    四、解决方式

    设置TIME_WAIT的重用

    linux服务器,配置内核参数中的 net.ipv4.tcp_tw_recycle

    /etc/sysctl.conf 添加下面的3行,然后执行sysctl -p
    [root@ns_xxx.xx..161.182 ~]$ tail -4 /etc/sysctl.conf
    # tcp连接保持时间为1800秒
    net.ipv4.tcp_keepalive_time = 1800
    # 回收TIME_WAIT占用的连接
    net.ipv4.tcp_tw_recycle = 1
    [root@ns_xxx.xx..161.182 ~]$ sysctl -p
    net.ipv4.ip_forward = 0
    net.ipv4.conf.default.rp_filter = 1
    net.ipv4.conf.default.accept_source_route = 0
    kernel.sysrq = 0
    kernel.core_uses_pid = 1
    net.ipv4.tcp_syncookies = 1
    kernel.msgmnb = 65536
    kernel.msgmax = 65536
    kernel.shmmax = 17179869184
    kernel.shmall = 4194304
    kernel.shmmni = 4096
    fs.file-max = 655350
    kernel.sem = 250 32000 128 1024
    net.ipv4.tcp_keepalive_time = 1800
    net.ipv4.tcp_tw_recycle = 1
    [root@ns_xxx.xx..161.182 ~]$ netstat  -an |grep -i time|grep 10050|grep -v 5432|wc -l
    0
    # 现在TIME_WAIT为0个,原先有89个
    

    注意:
    关于tcp_tw_recycle:
    如果是tcp_tw_recycle被打开了话,会假设对端开启了tcp_timestamps,然后会去比较时间戳,如果时间戳变大了,就可以重用。但是,如果对端是一个NAT网络的话(如:一个公司只用一个IP出公网)或是对端的IP被另一台重用了,这个事就复杂了。建链接的SYN可能就被直接丢掉了(你可能会看到connection time out的错误

    参考:

    1. TCP 的那些事儿(上)
    2. zabbix troubleshooting
  • 相关阅读:
    机器学习书籍推荐
    25个机器学习面试题,期待你来解答
    观点 | 如何优雅地从四个方面加深对深度学习的理解
    Azure Public IP DNS域名
    SSH不允许Root登陆的方法
    MySQL on Azure高可用性设计 DRBD
    Linux ssh 不需要输入密码的方法
    MySQL on Azure高可用性设计 DRBD
    Express Route的配置
    Azure PIP (Instance Level Public IP)
  • 原文地址:https://www.cnblogs.com/xupeiyuan/p/zabbix_too_much_time_wait.html
Copyright © 2020-2023  润新知