• Linux CPU占用率监控工具小结


    1. top



    1.1 /proc/loadavg

    load average取自/proc/loadavg。

    9.53 9.12 8.37 3/889 28165





    1.2 top使用



    top -H -b -d 1 -n 200 > top.txt,每个1秒统计一次,共200次,显示线程细节,并保存到top.txt中。








    hi是hardware interrupt,统计硬件中断时间。

    si是software interrupt,统计软中断时间。


    2. perf


    通过sudo perf top -s comm,可以查看当前系统运行进程占比。


    通过sudo perf record记录采样信息,然后通过sudo perf report -s comm。

    3. sar、ksar

    sar是System Activity Report的意思,可以用于实时观察当前系统活动,也可以生成历史记录的报告。

    要使用sar需要安装sudo apt install sysstat,然后对sysstat进行配置。



    sudo gedit /etc/default/sysstat--------------------------------将 ENABLED=“false“ 改为ENABLED=“true“。

    sudo gedit /etc/cron.d/sysstat--------------------------------修改sar的周期等配置。

    sudo /etc/init.d/sysstat restart--------------------------------重启sar服务

    /var/log/sysstat/--------------------------------------------------sar log存放目录


    LC_ALL=C sar -A > sar.txt 

    PS:这里直接使用sar -A,在ksar中无法正常显示。

    如下执行java -jar ksar.jar,然后Data->Load from text file...选择保存的sar.txt文件。




    sar 1 100---------------------------------------所有cpu合一的统计信息

    sar -P ALL 1 100-----------------------------包括cpu合一以及单个cpu的统计信息

    sar -B 1 100-----------------------------------paging统计信息

    sar -b 1 100----------------------------------块设备IO统计信息

    sar -d 1 100----------------------------------块设备活动统计信息

    sar -F 1 100---------------------------------挂载的文件系统统计信息

    sar -r ALL------------------------------------显示详细的内存使用统计信息

    sar -S----------------------------------------显示swap空间使用情况统计信息

    sar -w---------------------------------------显示进程创建以及进程切换统计信息

    sar -W--------------------------------------显示swap换入换出统计信息。

    更详细请参考《How To Create sar Graphs With kSar To Identifying Linux Bottlenecks》、《Collect and report Linux System Activity Information with sar》。

    4. mpstat

    mpstat是Multiprocessor Statistics。当没有参数时,mpstat显示系统系统以来所有信息平均值。

    常见用法如下,-P ALL监控所有CPU,细节显示特定CPU;10表示每10秒监控一次;20表示监控20次。

    mpstat -P ALL 10 20


    Linux 4.13.0-36-generic (xxx)     2018年08月13日     _x86_64_    (4 CPU)
    11时01分09秒  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
    11时01分19秒  all    3.44    6.26    5.15    0.13    0.00    0.20    0.00    0.00    0.00   84.82
    11时01分19秒    0    3.09   13.46    3.29    0.00    0.00    0.10    0.00    0.00    0.00   80.06
    11时01分19秒    1    4.41    3.11    5.02    0.00    0.00    0.60    0.00    0.00    0.00   86.86
    11时01分19秒    2    2.96    0.20    9.29    0.00    0.00    0.10    0.00    0.00    0.00   87.45
    11时01分19秒    3    3.32    7.95    3.12    0.50    0.00    0.00    0.00    0.00    0.00   85.11
    11时01分19秒  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
    11时01分29秒  all    3.65    6.09    5.08    0.00    0.00    0.25    0.00    0.00    0.00   84.93
    11时01分29秒    0    3.92   11.07    4.63    0.00    0.00    0.20    0.00    0.00    0.00   80.18
    11时01分29秒    1    4.39    1.90    3.49    0.00    0.00    0.80    0.00    0.00    0.00   89.42
    11时01分29秒    2    3.35    0.10   10.14    0.00    0.00    0.00    0.00    0.00    0.00   86.41
    11时01分29秒    3    2.91   11.26    2.21    0.00    0.00    0.00    0.00    0.00    0.00   83.62



    5. uptime




    load average后是1分钟、5分钟、15分钟平均负载。

    11:15:41 up 82 days, 20:34,  8 users,  load average: 0.28, 0.40, 0.43

    6. vmstat


    使用方法vmstat 5 5表示运行5次,每次5秒。结果如下:

    procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
     r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
     1  0 472576 228688 559092 1061756    0    0     9    39    1    0  8  4 87  0  0
     1  0 472576 228184 559100 1061756    0    0     0    13 1532 3395 10  6 84  0  0
     1  0 472576 229308 559100 1061616    0    0     0     0 1446 3449 10  5 85  0  0
     0  0 472576 229592 559108 1061616    0    0     0     6 1419 3474 10  5 85  0  0
     1  0 472576 229804 559108 1061616    0    0     0     0 1446 3439 10  5 85  0  0



     参考文档:《Linux Performance Measurements using vmstat

    7. pidstat


    7.1 查看CPU使用情况


    pidstat -p ALL---------------------------显示所有的进程统计信息,包括idle进程。

    pidstat -p ALL -t------------------------更加详细的显示了线程统计信息。

    pidstat [option] interval [count]-----周期采样和采样次数



    7.2 查看内存使用情况

    pidstat -p ALL -r结果如下:

    15时18分21秒   UID       PID  minflt/s  majflt/s     VSZ     RSS   %MEM  Command
    15时18分21秒     0         1      0.02      0.00  185316    3028   0.08  systemd
    15时18分21秒     0         2      0.00      0.00       0       0   0.00  kthreadd
    15时18分21秒     0         4      0.00      0.00       0       0   0.00  kworker/0:0H
    15时18分21秒     0         6      0.00      0.00       0       0   0.00  mm_percpu_wq
    15时18分21秒     0         7      0.00      0.00       0       0   0.00  ksoftirqd/0
    15时18分21秒     0         8      0.00      0.00       0       0   0.00  rcu_sched

    minflt/s: 每秒次缺页错误次数(minor page faults),次缺页错误次数意即虚拟内存地址映射成物理内存地址产生的page fault次数。

    majflt/s: 每秒主缺页错误次数(major page faults),当虚拟内存地址映射成物理内存地址时,相应的page在swap中,这样的page fault为major page fault,一般在内存使用紧张时产生。

    VSZ: 该进程使用的虚拟内存(以kB为单位)。

    RSS: 该进程使用的物理内存(以kB为单位)。

    %MEM: 该进程使用内存的百分比。

    Command: 拉起进程对应的命令。

    7.3 查看磁盘使用情况

    pidstat -p ALL -d结果如下:

    15时20分40秒   UID       PID   kB_rd/s   kB_wr/s kB_ccwr/s iodelay  Command
    15时20分40秒     0         1     -1.00     -1.00     -1.00 243523129  systemd
    15时20分40秒     0         2     -1.00     -1.00     -1.00       0  kthreadd
    15时20分40秒     0         4     -1.00     -1.00     -1.00       0  kworker/0:0H
    15时20分40秒     0         6     -1.00     -1.00     -1.00       0  mm_percpu_wq
    15时20分40秒     0         7     -1.00     -1.00     -1.00 714512328679  ksoftirqd/0
    15时20分40秒     0         8     -1.00     -1.00     -1.00 417757303594  rcu_sched

    kB_rd/s: 每秒进程从磁盘读取的数据量(以kB为单位)。

    kB_wr/s: 每秒进程向磁盘写的数据量(以kB为单位)。


    Command: 拉起进程对应的命令。

    8. time


    比如time cksum nomachine_6.0.80_1.exe得到如下结果。

    2401940638 32606752 nomachine_6.0.80_1.exe
    real    0m0.263s-----------------整个操作总耗时,0.263-0.094-0.011=0.158是IO等待耗时。
    user    0m0.094s-----------------用户态耗时
    sys    0m0.011s------------------内核态耗时
    2401940638 32606752 nomachine_6.0.80_1.exe
    real    0m0.098s-----------------第二次执行就可以看出等待IO操作的时间基本上没有了。
    user    0m0.097s
    sys    0m0.000s

    9. cpustat

    通过sudo apt install cpustat安装,cpustat -T -D -x结果如下。

    Load Avg 0.66 0.54 0.49, Freq Avg. 1.46 GHz, 4 CPUs online------------------------------显示Load Avg信息和平均频率等。
    3791.1 Ctxt/s, 1709.9 IRQ/s, 1800.0 softIRQ/s, 0.0 new tasks/s, 1 running, 0 blocked----进程切换次数、硬中断、软中断等等统计信息。
      %CPU   %USR   %SYS   PID S  CPU   Time Task-------------------------------------------CPU占用率、用户空间和内核空间占用率等。
     25.74  25.74   0.00 11435 R    3  2.29w /usr/bin/python3
     15.84  15.84   0.00  9445 S    0  1.49w /usr/lib/xorg/Xorg
     10.89   9.90   0.99  2722 S    1  1.05w compiz
      7.92   0.00   7.92 32352 S    2 16.60s [kworker/2:1]
      0.99   0.00   0.99 32397 R    1  0.01s cpustat
      0.99   0.99   0.00 11046 S    2 16.20h compiz
      0.99   0.99   0.00  1317 S    0  8.76h /usr/NX/bin/nxnode.bin
      0.99   0.00   0.99 10293 S    1  1.24m [kworker/1:2]
     64.36  53.47  10.89 Total
    Load Avg 0.66 0.54 0.49, Freq Avg. 1.75 GHz, 4 CPUs online
    2834.8 Ctxt/s, 1190.9 IRQ/s, 1183.3 softIRQ/s, 0.0 new tasks/s, 4 running, 0 blocked
      %CPU   %USR   %SYS   PID S  CPU   Time Task
     25.76  25.76   0.00 11435 R    3  2.29w /usr/bin/python3
     18.18  18.18   0.00  9445 S    0  1.49w /usr/lib/xorg/Xorg
      7.58   7.58   0.00  2722 S    1  1.05w compiz
      6.06   0.00   6.06 32352 S    2 16.64s [kworker/2:1]
      1.52   0.00   1.52 32397 R    1  0.02s cpustat
      1.52   0.00   1.52     8 S    0  3.00h [rcu_sched]
      1.52   0.00   1.52 18409 S    0  1.16m update-notifier
     62.12  51.52  10.61 Total
    Distribution of CPU utilisation (per Task):
    % CPU Utilisation   Count   (%)
      0.00 -   1.97       706  98.88
      1.97 -   3.94         0   0.00
      3.94 -   5.91         0   0.00
      5.91 -   7.88         2   0.28
      7.88 -   9.85         0   0.00
      9.85 -  11.82         0   0.00
     11.82 -  13.79         1   0.14
     13.79 -  15.76         0   0.00
     15.76 -  17.73         1   0.14
     17.73 -  19.70         1   0.14
     19.70 -  21.67         0   0.00
     21.67 -  23.64         0   0.00
     23.64 -  25.61         2   0.28
     25.61 -  27.57         0   0.00
     27.58 -  29.54         0   0.00
     29.55 -  31.51         0   0.00
     31.52 -  33.48         0   0.00
     33.48 -  35.45         0   0.00
     35.45 -  37.42         0   0.00
     37.42 -  39.39         1   0.14
    Distribution of CPU utilisation (per CPU):----------------------------------------------各CPU占用率,分用户空间和内核空间。
     CPU#   USR%   SYS%
        0  17.37   1.20
        1   8.98   2.40
        2   0.60   7.19
        3  25.75   0.00

    10.  htop


    11. atop


    12. glances



    13. nmon



     13. pcp-gui

    Performance Co-Pilot,简称PCP,是一个系统性能和分析框架。它从多个主机整理数据并实时的分析,帮你识别不正常的表现模式。它也提供API让你设计自己的监控和报告解决方案。


    sudo apt install pcp pcp-gui

    File->Open View选择需要打开的视图,比如CPU、Disk、Memory等。

    14. collectl、colplot

    14.1 collectl使用


    不同于大多数其它的系统监控工具,collectl 并非仅局限于有限的系统度量,相反,它可以收集许多不同类型系统资源的相关信息,如 cpu 、disk、memory 、network 、sockets 、 tcp 、inodes 、infiniband 、 lustre 、memory、nfs、processes、quadrics、slabs和buddyinfo等。



    sudo apt-get install collectl


    #cpu sys inter  ctxsw KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut 
       0   0   162    460      0      0      0      0      0      0      0       0 
       1   0   308    820      0      0     36      1      0      0      0       0 
       1   0   572   2022      0      0     36      2      0      0      0       0 
       0   0   270    728      0      0      0      0      0      0      0       0 


    b – buddy info (内存碎片)

    c – 所有CPU的合一统计信息;C - 单个CPU的统计信息。

    d – 整个文件系统Disk合一统计信息;C - 单个磁盘的统计信息。

    f – NFS V3 Data

    i – Inode and File System

    j – 显示每个CPU的Interrupts触发情况;J - 显示每个中断详细触发情况。

    l – Lustre

    m – 显示整个系统Memory使用情况;M - 按node显示内存使用情况。

    n – 显示整个系统的Networks使用情况;N - 分网卡显示网络使用情况。

    s – Sockets

    t – TCP

    x – Interconnect

    y – 对系统所有Slabs (系统对象缓存)使用统计信息;Y - 每个slab使用的详细信息。

    collectl --all显示所有子系统的统计信息,包括cpu、终端、内存、磁盘、网络、TCP、socket、文件系统、NFS。

    #<----CPU[HYPER]-----><-----------------Int------------------><-----------------Memory-----------------><----------Disks-----------><----------Network----------><-------TCP--------><------Sockets-----><----Files---><------NFS Totals------>
    #cpu sys inter  ctxsw Cpu0 Cpu1 Cpu2 Cpu3 Cpu4 Cpu5 Cpu6 Cpu7 Free Buff Cach Inac Slab  Map   Fragments KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut   IP  Tcp  Udp Icmp  Tcp  Udp  Raw Frag Handle Inodes  Reads Writes Meta Comm 
       5   1   749   2738   79   83   67  126  289   57   87   47   4G 107M   1G 640M 151M   1G nlsrkjebaas      0      0      0      0      0      0      0       0    0    2    0    0 1138    0    1    0  11648  71267      0      0    0    0 
       1   0   276   1323   22    8   12   37   76   19   33   72   4G 107M   1G 640M 151M   1G nlsrkjebaas      0      0     56     13      0      0      0       0    0    0    0    0 1138    0    1    0  11648  71264      0      0    0    0 
       1   0   298   1336   40    9   26   31   75   31   34   49   4G 107M   1G 640M 151M   1G olsrkjebaas      0      0     24      5      0      0      0       0    0    0    0    0 1138    0    1    0  11648  71256      0      0    0    0 

    collectl --top可以代替top命令:

    # TOP PROCESSES sorted by time (counters are /sec) 12:11:40
    # PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command
    14557  al       20  7305    0 R   75M   28M  4  0.02  0.05   7  00:00.47    0    0    0    0 /usr/bin/perl 
     6985  al       20     1   36 S    1G  181M  3  0.01  0.03   4  01:48.14    0    4    0    1 /opt/google/chrome/chrome 
     7255  al       20  7000   21 S  955M  215M  1  0.00  0.04   4  01:30.44    0    0    0 1999 /opt/google/chrome/chrome 
     8006  al       20  7000   17 S  923M  135M  0  0.01  0.03   4  01:24.67    0    0    0    0 /opt/google/chrome/chrome 
     7294  al       20  2415    3 S  710M   60M  7  0.01  0.01   2  00:12.79    0    0    0    4 /usr/bin/python 

    collectl --vmstat可以代替vmstat命令:

    #procs ---------------memory (KB)--------------- --swaps-- -----io---- --system-- ----cpu-----
    # r  b   swpd   free   buff  cache  inact active   si   so    bi    bo   in    cs us sy  id wa
      2  0      0  4634M   108M  1535M   642M   481M    0    0     0   132  594  2523  2  0  96  0
      0  0      0  4631M   108M  1539M   642M   481M    0    0     0     0 1006  5308  4  1  93  0
      0  0      0  4623M   108M  1547M   642M   481M    0    0     0    48  564  2572  2  0  96  0

    collectl -c1 -sZ -i:1可以代替ps命令。


    14.2 colplot使用



    解压下载的colplot之后,sudo ./INSTALL安装colplot。


    suod systemctl reload apache2

    sudo systemctl restart apache2


    通过Change Dir选择存放经过collectl -P保存的数据,然后设置Plot细节、显示那些子系统、plot大小等等。

    最后Generate Plot查看结果。

    参考文档:《Collectl: Linux 性能监控的全能冠军》、《Collectl Documentation》、《Collectl Examples - An Awesome Performance Analysis Tool in Linux

    0. 其他


