• Linux 系统监控常用命令


    简介

    列举操作系统级监控常用的几个方法,建议收藏使用

    CPU

    top 命令可用于监控系统整体负载,包括cpu、内存使用等,能够实时显示系统中各个进程的资源占用状况

    输出样例

    top - 19:37:41 up 192 days,  9:14,  1 user,  load average: 0.39, 0.28, 0.27
    Tasks: 126 total,   1 running, 125 sleeping,   0 stopped,   0 zombie
    Cpu(s):  0.1%us,  0.1%sy,  0.0%ni, 99.8%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
    Mem:     32113M total,    11351M used,    20762M free,      266M buffers
    Swap:     4091M total,        0M used,     4091M free,      304M cached
    
      PID USER      PR  NI  VIRT  RES  SHR S   %CPU %MEM    TIME+  COMMAND                                                                                                                                                                     
        1 root      20   0 25280 1016  968 S      0  0.0   2:37.44 init                                                                                                                                                                         
        2 root      20   0     0    0    0 S      0  0.0   0:02.40 kthreadd                                                                                                                                                                     
        3 root      20   0     0    0    0 S      0  0.0   3:28.59 ksoftirqd/0                                                                                                                                                                  
        5 root      20   0     0    0    0 S      0  0.0   0:00.59 kworker/u:0                                                                                                                                                                  
        6 root      RT   0     0    0    0 S      0  0.0   0:11.39 migration/0 
    

    指标说明

    • load average: 0.06, 0.60, 0.48
      系统负载,即任务队列的长度。分别为 1分钟、5分钟、15分钟内的平均值。
    • Tasks
      进程汇总,包括运行中、睡眠、停止、僵尸态的梳理
    • Cpu(s)
    指标 说明
    0.3% us 用户空间占用CPU百分比
    1.0% sy 内核空间占用CPU百分比
    0.0% ni 用户进程优先级调度CPU百分比
    98.7% id 空闲CPU百分比
    0.0% wa 等待输入输出的CPU时间百分比
    0.0% hi 硬件CPU中断占用百分比
    0.0% si 软中断占用百分比
    0.0% st 虚拟机占用百分比
    • Mem
      内存统计,包括物理内存、已使用内存、空闲内存、内核缓存

    • Swap
      交换区统计,包括总量、已使用、空闲量、缓存量

    • 进程列表

    指标 说明
    PID 进程ID
    USER 进程所有者的用户名
    PR 优先级
    NI nice值。负值表示高优先级,正值表示低优先级
    VIRT 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
    RES 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
    SHR 共享内存大小,单位kb
    S 进程状态(D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程)
    %CPU 进程使用的CPU百分比
    %MEM 进程使用的物理内存百分比
    TIME+ 进程使用的CPU时间总计,单位1/100秒
    SWAP 进程使用的虚拟内存中,被换出的大小,单位kb
    CODE 可执行代码占用的物理内存大小,单位kb
    DATA 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
    COMMAND 命令名/命令行

    按F键可以选择显示不同的指标,非常详细
    参考文档

    内存监控

    vmstat 指虚拟内存统计(Virtual Meomory Statistics), 是常用的实时系统监控工具。

    输出样例

    ~-> vmstat 2
    procs -----------memory---------- ---swap-- -----io---- -system-- -----cpu------
     r  b   swpd   free   buff  cache     si   so    bi    bo   in   cs us sy id wa st
     0  0    212 21250404 272916 320572    0    0     0     2    0    0  0  0 100  0  0
     0  0    212 21250652 272916 320576    0    0     0     0  535 1061  0  0 100  0  0
     0  0    212 21250652 272916 320576    0    0     0     0  496 1062  0  0 100  0  0
     2  0    212 21250256 272916 320576    0    0     0     0  751 1107  0  0 99  0  0
     0  0    212 21250404 272916 320568    0    0     0     0  496 1056  0  0 100  0  0
     0  0    212 21250404 272916 320568    0    0     0     0  593 1089  0  0 100  0  0
     0  0    212 21250404 272916 320568    0    0     0    56  539 1074  0  0 100  0  0
     0  0    212 21250404 272916 320568    0    0     0     0  589 1137  0  0 100  0  0
     0  0    212 21250404 272916 320564    0    0     0     0  608 1154  0  0 100  0  0
     0  0    212 21250404 272916 320564    0    0     0     0  601 1156  0  0 100  0  0
     1  0    212 21250404 272916 320564    0    0     0     0  611 1155  0  0 100  0  0
     0  0    212 21250404 272916 320564    0    0     0     0  599 1151  0  0 100  0  0
    

    指标说明

    指标 说明
    procs.r 等待cpu时间片的进程数
    procs.b 等待资源的进程数,比如等待IO或内存交换等
    cpu.us 用户态CPU 时间百分比
    cpu.sy 内核态CPU 时间百分比,参考值us+sy<=80%
    cpu.wa IO等待所占用的CPU 时间百分比,参考值wa<=30
    cpu.id 空闲状态CPU 时间百分比
    cpu.st 虚拟机CPU占用时间百分比,存在超分时可能较高
    system.in 设备中断数
    system.cs 上下文切换次数
    memory.swpd 内存交换区的内存数量(KB)
    memory.free 空闲页的内存数量(KB)
    memory.buff buffer cache的内存数量,一般在块设备读写使用
    memory.cache 作为page cache的内存数量,一般作为文件系统的cache
    swap.si 由内存进入内存交换区数量
    swap.so 由内存交换区进入内存数量
    io.bi 从块设备读入的数据量(KB/S)
    io.bo 向块设备写入的数据量(KB/S)

    参考文档
    关于 linux OOM Killer
    free 查看可用内存

    网络连接

    netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态等。

    输出样例

    iotweb@kwe1000111753:~> netstat -ano |head
    Active Internet connections (servers and established)
    Proto Recv-Q Send-Q Local Address           Foreign Address         State    
    tcp        0      0 0.0.0.0:4444            0.0.0.0:*               LISTEN   
    tcp        0      0 0.0.0.0:19999           0.0.0.0:*               LISTEN   
    tcp        0      0 0.0.0.0:27017           0.0.0.0:*               LISTEN   
    tcp        0      0 0.0.0.0:6380            0.0.0.0:*               LISTEN   
    tcp        0      0 0.0.0.0:111             0.0.0.0:*               LISTEN   
    

    常见用法

    • 检查出TIME_WAIT的数量
    netstat -an | grep -c TIME_WAIT 
    
    • 检查全部socket状态
    netstat -nat| awk '{print awk $NF}'|sort|uniq -c|sort -n  
    
    • 检查进程及socket数量
    netstat -nap| awk '{print awk $NF}'|sort|uniq -c|sort -n  
    
    • 查看端口连接数
    netstat -anp |grep 27071|wc -l
    

    磁盘使用

    iostat 用于监控磁盘的IO吞吐及资源占用情况

    命令

    iostat -d -x -k 1 10
    

    -d为查看磁盘状况,-k表示以KB为单位,-x表示输出更多的扩展字段

    Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
    xvda              0.01     8.32    0.49    4.94     6.82    53.08    22.06     0.11   19.68   1.76   0.95
    xvde              0.02   841.11   33.24  304.80   331.20  4583.79    29.08     1.67    4.93   1.15  38.76
    dm-0              0.00     0.00   33.26 1145.95   331.20  4583.79     8.34     0.30    2.61   0.33  38.81
    

    指标说明

    指标 说明
    rrqm/s 每秒merge的读取请求数(同一个Block存在merge机制)
    rrqm/s 每秒merge的写入请求数(同一个Block存在merge机制)
    r/s 每秒提交的读取请求数
    w/s 每秒提交的写入请求数
    await IO请求的平均响应时间,参考值<=10ms
    rkB/s 每秒读取数据量
    wkb/s 每秒写入数据量
    avgrq-sz IO平均请求大小(扇区)
    avgqu-sz IO平均请求队列大小
    svctm IO请求平均执行时间
    %util CPU占用百分比

    进程监控

    ps命令能够给出当前系统中进程的快照

    • 查找进程方法
    ps -ef |grep nscl
    
    • 按cpu占用排序查看前10进程
    -> ps -aux --sort -pcpu |head -n 10
    USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
    iotweb    9313  1.0 14.3 6277488 4708752 ?     Sl   Nov03 687:08 ./bin/mongod -f conf/mongodb.conf --auth
    iotweb   16957  0.3 10.1 10208428 3322260 ?    Sl   Nov01 251:37 java -jar redis-stat-0.4.14.jar 127.0.0.1:6380 3 --server=63800
    root      2822  0.1  0.0 133196  1288 ?        Sl   Jun07 431:05 /usr/bin/vm-agent
    iotweb   16942  0.1  0.0  52364 13304 ?        Ssl  Nov01  95:57 ./bin/redis-server 0.0.0.0:6380
    

    指标说明

    指标 说明
    USER 进程 owner
    PID 进程ID
    %CPU CPU占用率
    %MEM 内存占用率
    TTY 终端
    STAT 进程状态
    VSZ 虚拟内存占用
    RSS 物理内存占用
    START 开始日期
    TIME 启动时长
    COMMAND Bash命令

    参考文档

    文件占用

    lsof(list open files)用于列出当前系统打开文件句柄,包括网络套接字、设备句柄等。

    输出样例

    ~->lsof /opt
    
    COMMAND  PID   USER   FD   TYPE DEVICE  SIZE/OFF   NODE NAME
    mongod  9313 iotweb  txt    REG  252,0  36409888 761870 /opt/local/mongodb/bin/mongod
    mongod  9313 iotweb    4w   REG  252,0   7082638 778244 /opt/local/mongodb/log/mongodb.log
    mongod  9313 iotweb    8uW  REG  252,0         5 778246 /opt/local/mongodb/data/mongod.lock
    mongod  9313 iotweb    9uw  REG  252,0        21 778247 /opt/local/mongodb/data/WiredTiger.lock
    mongod  9313 iotweb   15u   REG  252,0     36864 778253 /opt/local/mongodb/data/sizeStorer.wt
    

    指标说明

    指标 说明
    COMMAND 进程的名称
    PID 进程ID
    USER 进程所有者
    FD 文件描述符
    TYPE 文件类型,如DIR、REG等
    DEVICE 指定磁盘的名称
    SIZE 文件的大小
    NODE 文件索引节点
    NAME 文件的名称

    参考文档

  • 相关阅读:
    BZOJ.4293.[PA2015]Siano(线段树)
    洛谷.T21778.过年(线段树 扫描线)
    HDU.6155.Subsequence Count(线段树 矩阵)
    BZOJ.3687.简单题(bitset)
    var let const的区别
    2、electron进程
    1、Electron入门HelloWorld案例
    JUnit@Before失效
    十一、Thymeleaf的基础使用
    九、SpringBoot集成Thymeleaf模板引擎
  • 原文地址:https://www.cnblogs.com/littleatp/p/8419616.html
Copyright © 2020-2023  润新知