上周末晚上运营做直播,业务代码不规范,访问1个redis竟然把1台服务器的网卡打满了,这台服务器上的其他redis服务都受到了影响。之前没有做这方面的预案,当时又没有空闲的机器可以迁移,在当时一点办法都没有,尴尬啊,就这样拖到了直播结束。结束后做复盘,leader对数据库这边要求必须对数据库使用服务器资源有限制方案。结合我们的数据库部署情况,mysql都是单实例部署,问题不大;redis是直接在服务器上做多实例部署,因此主要就是限制redis的cpu和网卡流量。
1. linux如何限制网卡流量
流量控制的基本概念是队列(Qdisc),每个网卡都与一个队列(Qdisc)相联系, 每当内核需要将报文分组从网卡发送出去, 都会首先将该报文分组添加到该网卡所配置的队列中, 由该队列决定报文分组的发送顺序。在队列中将不同的报文使用不同的过滤器(Filter)来分组分成不同的类别(Class),并根据不同的原则, 以不同的顺序发送队列中的报文分组。
2. 带宽互斥
2.1 针对网卡建立根htb队列:
需要限流的端口为 9001, 网卡为 eth0
v_port=9001
veth=eth0
tc qdisc add dev ${veth} root handle 1:0 htb default 11
#add dev ${veth} 表示针对 veth 网卡创建队列
#root 表示添加的是1个根队列
#handle 1:0 标识该队列
#htb 表示要添加的队列为HTB队列
#default 11 是htb队列特有的参数,表示所有未分类的流量都分配给 1:11
2.2 为根队列创建两个类别:
tc class add dev ${veth} parent 1:0 classid 1:11 htb rate 64mbps ceil 64mbps burst 640k
tc class add dev ${veth} parent 1:0 classid 1:12 htb rate 64mbps ceil 64mbps burst 640k
#parent 1:0 表示类别的父亲为根队列 1:0
#classid 1:11 标识该类别;其中 1:11 为1.1中指定的未分类的流量分配类别
#rate 64Mbit 表示系统为该类别确保带宽为 64M
#ceil 64Mbit表示该类别最高可占用带宽为 64M
#burst 640k 令牌桶大小,应对突发流量,官方建议1M/s数据流对应 10k的令牌桶大小
2.3 为各个类别设置过滤器
对出口流量进行限制
tc filter add dev ${veth} protocol ip parent 1:0 prio 1 u32 match ip sport ${v_port} 0xffff flowid 1:12
#protocol ip 表示过滤器检查tcp报文分组的协议字段
#prio 1 表示这些过滤器对报文处理的优先级是相同的,对于不同优先级的过滤器,系统将按照从小到大的优先级
#u32 match ip sport ${v_port} 0xffff 表示采用 u32 选择器来匹配不同的数据流,sport表示匹配的是sport字段, 如果该字段与 0xffff的与操作结果是 ${v_port}
#flowid 1:12 表示将该数据流分配给类别 1:12
这种方式共创建了两个类别,1:11 和 1:12, 1:11给为未分类的流量使用,1:12给分类的流量使用;这两个类别的数据流之间是互斥的,即当 1:11 的数据流没有达到最大流量配额时,剩余的带宽不能被 1:12 数据流使用,造成了带宽浪费。
3. 多个数据流共享一定的带宽
3.1 针对网卡建立根htb队列:
v_port=9001
veth=eth0
tc qdisc add dev ${veth} root handle 1:0 htb default 11
3.2 为根队列创建根类别
tc class add dev ${veth} parent 1:0 classid 1:1 htb rate 128mbps ceil 128mbps burst 1280k
tc class add dev ${veth} parent 1:1 classid 1:11 htb rate 64mbps ceil 128mbps burst 640k
tc class add dev ${veth} parent 1:1 classid 1:12 htb rate 64mbps ceil 128mbps burst 640k
# 类别 1:11 和 1:12 是 1:1 的子类别,因此他们可以共享分配的 128M带宽,同时,又确保当需要时,自身的带宽至少有 64M。
3.3 为类别设置过滤器
tc filter add dev ${veth} protocol ip parent 1:0 prio 1 u32 match ip sport ${v_port} 0xffff flowid 1:12
这种方式下带宽在各个类别之间进行共享,同时又确保各进程有一定的基础带宽。
4. desc
4.1 显示队列状况
tc -s qdisc ls dev ${veth}
4.2 显示分类状况
tc -s class ls dev ${veth}
4.3 显示过滤器的状况
tc -s filter ls dev ${veth}
5. 维护操作
5.1 过滤器删除
tc filter del dev ${veth} parent 1:0 prio 1 u32 match ip sport ${v_port} 0xffff
5.2 类别删除
5.3 队列删除
tc qdisc del dev ${veth} root
## 队列删除之后,该队列上的类别、过滤器都会被删除
6. 对CPU进行限制
isolcpus 是将指定的CPU从内核调度算法中删除,使得操作系统不会向指定的CPU上调度任务,将指定的CPU孤立出来。同时,通过taskset亲和性设置将指定的进程指定到特定的CPU上运行;通过这种方式,确保redis进程和系统进程 、监控进程等互相隔离,同时确保各redis进程之间互相隔离。
6.1 设置方式:
a. centos6: 在 /boot/grub/grub.conf 文件中定位到 kernel /vmlinuz-2.6.32-431.el6.x86_64 ro root=UUID=08143ae2-e0ba-4181-a1f7-02ec210cded6 rd_NO_LUKS rd_NO_LVM LANG=en_US.UTF-8 rd_NO_MD SYSFONT=latarcyrheb-sun16 crashkernel=auto KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM rhgb quiet 这一行,在这一行后面添加启动参数 isolcpus=2,3,4 来设置需要孤立的CPU;而后重启系统,通过 cat /proc/cmdline 命令来进行验证。
b. 在进程启动后通过 taskset -pc ${cpunum} ${pid} 来设置CPU亲和。