linux 服务器资源监控工具

linux 服务器资源监控工具

工具一：vmstat（服务端）

一、vmstat选项参数解释

-V：显示vmstat版本信息

-n：只在开始时显示一次各字段名称

-a：显示活跃和非活跃内存

-d：显示各个磁盘相关统计信息

-D：显示磁盘总体信息

-p：显示指定磁盘分区统计信息

-s：显示内存相关统计信息及多种系统活动数量

-m：显示slabinfo

-t：在输出信息的时候也将时间一并输出出来

-S：使用指定单位显示。参数有k、K、m、M，分别代表1000、1024、1000000、1048576字节（byte）。默认单位为K（1024bytes）

delay：刷新时间间隔。如果不指定，只显示一条结果

count：刷新次数。如果不指定刷新次数，但指定了刷新时间间隔，这时刷新次数为无穷

二、vmstat各字段说明

1、procs

r：表示运行和等待CPU时间片的进程数（就是说多少个进程真的分配到CPU），这个值如果长期大于系统CPU个数，说明CPU不足，需要增加CPU。

b：表示在等待资源的进程数，比如正在等待I/O或者内存交换等。

2、memory

swpd：表示切换到内存交换区的内存大小，即虚拟内存已使用的大小（单位KB），如果大于0，表示你的机器物理内存不足了，如果不是程序内存泄露的原因，那么你该升级内存了或者把耗内存的任务迁移到其他机器。

free：表示当前空闲的物理内存

buff：表示baffers cached内存大小，也就是缓冲大小，一般对块设备的读写才需要缓冲。

Cache：表示page cached的内存大小，也就是缓存大小，一般作为文件系统进行缓冲，频繁访问的文件都会被缓存，如果cache值非常大说明缓存文件比较多，如果此时io中的bi比较小，说明文件系统效率比较好。

3、swap

si：表示有磁盘调入内存，也就是内存进入内存交换区的内存大小；通俗的讲就是每秒从磁盘读入虚拟内存的大小，如果这个值大于0，表示物理内存不够用或者内存泄露了，要查找耗内存进程解决掉。

so：表示由内存进入磁盘，也就是由内存交换区进入内存的内存大小。

注意：一般情况下si、so的值都为0，如果si、so的值长期不为0，则说明系统内存不足，需要增加系统内存。

4、io

bi：表示由块设备读入数据的总量，即读磁盘，单位kb/s

bo：表示写到块设备数据的总量，即写磁盘，单位kb/s

注意：如果bi+bo的值过大，且wa值较大，则表示系统磁盘IO瓶颈。

5、system

in：表示某一时间间隔内观测到的每秒设备终端数。

cs：表示每秒产生的上下文切换次数，例如我们调用系统函数，就要进行上下文切换，线程的切换，也要进程上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CPU没有充分利用，是不可取的。

注意：这两个值越大，则由内核消耗的CPU就越多

6、CPU

us：表示用户进程消耗的CPU时间百分比，us值越高，说明用户进程消耗CPU时间越多，如果长期大于50%，则需要考虑优化程序或者算法

sy：表示系统内核进程消耗的CPU时间百分比，一般来说us+sy应该小于80%，如果大于80%，说明可能存在CPU瓶颈

id：表示CPU处在空间状态的时间百分比

wa：表示IP等待所占用的CPU时间百分比，wa值越高，说明I/O等待越严重，根据经验wa的参考值为20%，如果超过20%，说明I/O等待严重，引起I/O等待的原因可能是磁盘大量随机读写造成的，也可能是磁盘或者监控器的贷款瓶颈（主要是块操作）造成的

综上所述，如果评估CPU，需要重点关注procs项的r列值和CPU想的us、sy、wa列的值

三、vmstat

1、第一个参数是采样的时间间隔数，单位是秒，第二个参数是采样的次数：vmstat 2 5

2、每2秒采集数据一直采集直到结束程序：vmsta 2

3、在vmstat命令中加入时间信息并输出到文件中：vmstat -n 5 | awk '{ printf "%s ",$0; system("date +"[%F %T"]"); }' >wzx.txt

工具二：nmon（服务端）

一、安装：将安装包nmon16m_helpsystems.tar.gz上传至服务器后，解压，根据服务器的版本信息选择对应的安装包，并将选择的安装包重命名为nmon

二、启动命令：执行命令可以启动监控：./nmon -f -t -s 60 -c 600 /opt/nmon，启动后就可发现对应进程以启动

同时将会生成对应的文件：

三、破解excel，启用宏：由于对于生成的nmon文件需要利用到nmon analyser v66(1).xlsm文件中的excel宏操作，所以打开之前需要破解，KMS-VL-ALL-6.9.3-Chs.rar工具即可破解，此时需要退出杀毒软件，以管理员身份运行，

四、破解后利用excel方式打开nmon analyser v66(1).xlsm，点击“分析nmon数据”即可生成对应文件：

工具三：sar（服务端）

1、安装sar：yum -y install sysstat

2、监控CPU：

每5秒采集一次：sar -u 5

每2秒采集一次，共采集3次：sar -u 2 3

每2秒采集一次，直到12点50分，数据将保存到/tmp/cpu.log文件中：sar -u 2 -e 12:50:00 > /tmp/cpu.log

　　%usr：用户进程消耗的CPU时间百分比。

　　%nice: 运行正常进程消耗的CPU时间百分比。

　　%system：系统进程消耗的CPU时间百分比。

　　%iowait：I/O等待所占CPU时间百分比。

　　%steal：在内存紧张环境下，pagein强制对不同的页面进行的steal操作。

　　%idle：CPU空闲状态的时间百分比。

3、监控内存：

每2秒采集一次，共采集3次：sar -r 2 3

　　Kbmemfree：这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间。

　　kbmemused：这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间。

　　%memused：这个值是kbmemused和内存总量(不包括swap)的一个百分比。

　　kbbuffers和kbcached：这两个值就是free命令中的buffer和cache。

　　kbcommit：保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap)。

　　%commit：这个值是kbcommit与内存总量(包括swap)的一个百分比。

4、内存分页监控

每2秒采集一次，共采集3次：sar -B 2 3

　　pgpgin/s：表示每秒从磁盘或SWAP置换到内存的字节数(KB)。

　　pgpgout/s：表示每秒从内存置换到磁盘或SWAP的字节数(KB)。

　　fault/s：每秒钟系统产生的缺页数,即主缺页与次缺页之和(major + minor)。

　　majflt/s：每秒钟产生的主缺页数。

5、磁盘I/O监控：sar -b 2 3

　　tps：每秒钟物理设备的I/O 传输总量。

　　rtps：每秒钟从物理设备读入的数据总量。

　　wtps：每秒钟向物理设备写入的数据总量。

　　bread/s：每秒钟从物理设备读入的数据量，单位为块/s。

　　bwrtn/s：每秒钟向物理设备写入的数据量，单位为块/s。

6、进程队列长度和负载监控：sar -q 2 3

　　runq-sz：运行队列的长度（等待运行的进程数）。

　　plist-sz：进程列表中进程（processes）和线程（threads）的数量。

　　ldavg-1：最后1分钟的系统平均负载（System load average）。

　　ldavg-5：过去5分钟的系统平均负载。

　　ldavg-15：过去15分钟的系统平均负载。

7、系统交换活动信息监控：sar -w 2 3

　　pswpin/s：每秒系统换入的交换页面（swap page）数量。

　　pswpout/s：每秒系统换出的交换页面（swap page）数量。

8、设备使用情况监控：sar -d 2 3 -p

　　tps:每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请求,一次传输的大小是不确定的。

　　rd_sec/s:每秒读扇区的次数。

　　wr_sec/s:每秒写扇区的次数。

　　avgrq-sz:平均每次设备I/O操作的数据大小(扇区)。

　　avgqu-sz:磁盘请求队列的平均长度。

　　await:从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒(1秒=1000毫秒)。

　　svctm:系统处理每次请求的平均时间,不包括在请求队列中消耗的时间。

　　%util:I/O请求占CPU的百分比,比率越大,说明越饱和。

　　1. avgqu-sz的值较低时，设备的利用率较高。

　　2. 当%util的值接近1% 时，表示设备带宽已经占满。

9、监控网卡流量：sar -n DEV 2 3

注：sar -n DEV -f /var/log/sa/sa13　　#查看某一天的流量历史，后面跟文件名

10、分析

　　要判断系统瓶颈问题，有时需几个sar命令选项结合起来

　　•怀疑CPU存在瓶颈，可用sar-u 和sar-q 等来查看

　　•怀疑内存存在瓶颈，可用sar-B、sar-r 和sar-W 等来查看

　　•怀疑I/O存在瓶颈，可用sar-b、sar-u 和sar-d 等来查看

工具四：zabbix（服务端网页都是可以监控的）
相关阅读:
Azure Messaging-ServiceBus Messaging消息队列技术系列6-消息回执
 Azure Messaging-ServiceBus Messaging消息队列技术系列7-消息事务
 Azure Messaging
消息队列技术之基本概念
 Azure IoT 技术研究系列1
Azure IoT 技术研究系列3
Azure IoT 技术研究系列2
Azure IoT 技术研究系列4
memset()
C++ GetComputerName()
原文地址：https://www.cnblogs.com/wzx1blog/p/13588464.html

linux 服务器资源 监控工具

linux 服务器资源监控工具