• Linux性能监控与分析之--- CPU


    Linux性能监控与分析之--- CPU

    2016.07.25 18:16:12字数 1,576阅读 2,837

    CPU性能指标

    1. 用户进程使用CPU的比率
    2. 系统进程使用CPU的比率
    3. WIO, 等待I/O 而是CPU处于空闲状态的比率。
    4. CPU的空闲率
    5. CPU用于上下文交换的比率
      6,nice
      7,real-time
      8,运行进程队列的长度
      9,平均负载

    Linux下常用监控CPU性能的工具有

    1. iostat
      只能查看所有CPU的平均信息
    2. vmstat
      能查看所有CPU的平均信息,
      能查看CPU队列信息
    3. mpstat
      能查看单个和所有的CPU信息。
    4. sar
      与mpstat类似
    5. top
    6. nmon

    iostat

    iostat  
    Linux 2.6.18-92.el5          08/30/2012  
      
    avg-cpu:  %user   %nice %system %iowait  %steal   %idle  
               1.16    0.01    0.62    0.18    0.00   98.03  
    
    

    vmstat

    vmstat -n 5  
    procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------  
     r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st  
     0  0     96 1261196 981892 3638872    0    0     0    16    1    1  1  1 98  0  0  
    
    
    • -n 5 参数的意义是每隔 5 秒刷新一次
    • procs
      • r -- 下面的数字代表运行的序列。如果这个值连续大于系统的CPU个数表示系统运行较慢, 有多数进程等待CPU。 如果r的个数大于CPU的4倍的话, 则系统面临CPU短缺或是CPU的速率过低,造成系统运行过慢。
    • System
      • in -- 每秒产生的中断次数
      • cs -- 每秒产生的上下文切换次数。
        这两个值越大,系统进程消耗的CPU的时间越大。
    • CPU
      • us -- 用户进程消耗CPU的时间百分比。长期居高不下, 就需要优化程序了。
      • sy -- 系统进程消耗CPU的时间百分比。 sy 值高, 并不是良性的表现。
      • wa -- IO等待消耗的CPU时间百分比, 值高时,说明IO等待比较严重, 可能由于磁盘大量随机访问造成, 也有可能磁盘出现瓶颈。
        id -- CPU 处于空闲时间百分比。如果持续为0且出现sy 是us 两倍状况,则系统面临CPU资源短缺。当发生此问题的时候请先调整应用程序对CPU的占用情况.使得应用程序能够更有效的使用CPU.同时可以考虑增加更多的CPU.

    mpstat - (Multiprocessor Statistics)
    实施监控, 信息存放在 /proc/stat文件中

    mpstat -P ALL 2 10  
    Linux 2.6.18-92.el5 ()         08/30/2012  
      
    08:16:34 PM  CPU   %user   %nice    %sys %iowait    %irq   %soft  %steal   %idle    intr/s  
    08:16:36 PM  all    0.78    0.00    0.26    0.26    0.00    0.26    0.00   98.44   1058.85  
    08:16:36 PM    0    0.52    0.00    0.52    0.00    0.00    0.52    0.00   98.44   1058.85  
    08:16:36 PM    1    0.52    0.00    0.00    0.00    0.00    0.00    0.00   99.48      0.00
    

    以上意思是: 每隔2秒采样所有CPU的使用状况, 总过采样10次。语法如下:
    mpstat [-P {|ALL}] [internal [count]]

    • -P 监控哪个CPU, 一般使用ALL就可以了
    • Internal 间隔的时间
    • count 采样的次数
      输出参数意义
    • %user -- 用户态CPU时间比
    • %nice -- 负进程的CPU时间
    • %system - 核心态时间
    • iowait -- IO 等待时间
    • irq --
    • soft
    • idle
    • intr/s 每秒CPU接收中断的次数

    sar

    $ sar -u 2 10  
    Linux 2.6.18-92.el5 ()         08/30/2012  
      
    08:28:36 PM       CPU     %user     %nice   %system   %iowait    %steal     %idle  
    08:28:38 PM       all      0.26      0.00      0.00      0.78      0.00     98.97  
    08:28:40 PM       all      0.52      0.00      0.52      0.00      0.00     98.9
    

    ** sar [options] [-A] [-o file] t [n]**

    • 在命令行中,n 和t 两个参数组合起来定义采样间隔和次数,t为采样间隔,是必须有的参数,n为采样次数,是可选的,默认值是1,-o file表示将命令结果以二进制格式存放在文件中,file 在此处不是关键字,是文件名options 为命令行选项,sar命令的选项很多,下面只列出常用选项:

    -A:所有报告的总和。
    -u:CPU利用率
    -v:进程、I节点、文件和锁表状态。
    -d:硬盘使用报告。
    -r:内存和交换空间的使用统计。
    -g:串口I/O的情况。
    -b:缓冲区使用情况。
    -a:文件读写情况。
    -c:系统调用情况。
    -q:报告队列长度和系统平均负载
    -R:进程的活动情况。
    -y:终端设备活动情况。
    -w:系统交换活动。
    -x { pid | SELF | ALL }:报告指定进程ID的统计信息,SELF关键字是sar进程本身的统计,ALL关键字是所有系统进程的统计

    %user:CPU处在用户模式下的时间百分比。
    %nice:CPU处在带NICE值的用户模式下的时间百分比。
    %system:CPU处在系统模式下的时间百分比。
    %iowait:CPU等待输入输出完成时间的百分比。
    %steal:管理程序维护另一个虚拟处理器时,虚拟CPU的无意识等待时间百分比。
    %idle:CPU空闲时间百分比。

    • 在所有的显示中,我们应主要注意%iowait和%idle,%iowait的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。

    用sar进行运行进程队列长度分析:

    #sar -q 2 10
    Linux 2.6.18-53.el5PAE (localhost.localdomain)  03/28/2009
    07:58:14 PM   runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15
    07:58:16 PM         0         493          0.64        0.56        0.49
    07:58:18 PM         1         491          0.64        0.56        0.49
    07:58:20 PM         1         488          0.59        0.55        0.49
    07:58:22 PM         0         487          0.59        0.55        0.49
    07:58:24 PM         0         485          0.59        0.55        0.49
    07:58:26 PM         1         483          0.78        0.59        0.50
    07:58:28 PM         0         481          0.78        0.59        0.50
    07:58:30 PM         1         480          0.72        0.58        0.50
    07:58:32 PM         0         477          0.72        0.58        0.50
    07:58:34 PM         0         474          0.72        0.58        0.50
    Average:               0         484          0.68        0.57        0.49
     
    runq-sz 准备运行的进程运行队列。
    plist-sz  进程队列里的进程和线程的数量
    ldavg-1  前一分钟的系统平均负载(load average)
    ldavg-5  前五分钟的系统平均负载(load average)
    ldavg-15  前15分钟的系统平均负载(load average)
    
    • 顺便说一下load avarage的含义load average可以理解为每秒钟CPU等待运行的进程个数.在Linux系统中,sar -q、uptime、w、top等命令都会有系统平均负载load average的输出,那么什么是系统平均负载呢?  系统平均负载被定义为在特定时间间隔内运行队列中的平均任务数。如果一个进程满足以下条件则其就会位于运行队列中:
      • 它没有在等待I/O操作的结果
      • 它没有主动进入等待状态(也就是没有调用'wait')
      • 没有被停止(例如:等待终止)

    uptime

    • 20:55:40 up 24 days, 3:06, 1 user, load average: 8.13, 5.90, 4.94
    • 命令输出的最后内容表示在过去的1、5、15分钟内运行队列中的平均进程数量。
    • 一般来说只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的,如果每个CPU的任务数大于5,那么就表示这台机器的性能有严重问题。对 于上面的例子来说,假设系统有两个CPU,那么其每个CPU的当前任务数为:8.13/2=4.065。这表示该系统的性能是可以接受的。
  • 相关阅读:
    第三方登陆--新浪
    YII2.0邮箱发送
    MYSQL 数据库实现远程连接
    MEMCACHE所有方法及参数详解
    把时间转成适合符合日常习惯的格式【js】
    mvc的自带json序列化的datetime在js中的解析
    如何在word中的第3+n页处插入页面并重新从1开始
    古怪的运算符=+
    【摘录】某表含有N个字段超精简模糊查询方法
    C#中快速释放内存,任务管理器可查证
  • 原文地址:https://www.cnblogs.com/xuanbjut/p/11884263.html
Copyright © 2020-2023  润新知