什么是进程
Process: 运行中的程序的一个副本,是被载入内存的一个指令集合,是资源分配的单位
进程ID(Process ID,PID)号码被用来标记各个进程
UID、GID、和SELinux语境决定对文件系统的存取和访问权限
通常从执行进程的用户来继承
存在生命周期
进程创建:
init:第一个进程,从 CentOS7 以后为systemd
进程:都由其父进程创建,fork(),父子关系,CoW:Copy On Write
查看进程中的线程
cat /proc/PID/status |grep -i threads
进程结构
内核把进程存放在叫做任务队列(task list)的双向循环链表中
链表中的每一项都是类型为task_struct,称为进程控制块(Processing Control Block),PCB中包含一个具体进程的所有信息
进程控制块PCB包含信息:
进程id、用户id和组id
程序计数器
进程的状态(有就绪、运行、阻塞)
进程切换时需要保存和恢复的CPU寄存器的值
描述虚拟地址空间的信息
描述控制终端的信息
当前工作目录
文件描述符表,包含很多指向file结构体的指针
进程可以使用的资源上限(ulimit –a命令可以查看)
输入输出状态:配置进程使用I/O设备
[root@centos8 ~]# getconf -a |grep -i size
PAGESIZE 4096
PAGE_SIZE 4096
SSIZE_MAX 32767
_POSIX_SSIZE_MAX 32767
_POSIX_THREAD_ATTR_STACKSIZE 200809
FILESIZEBITS 64...省略
物理地址空间和虚拟地址空间
MMU:Memory Management Unit 负责虚拟地址转换为物理地址
程序在访问一个内存地址指向的内存时,CPU不是直接把这个地址送到内存总线上,而是被送到MMU(Memory Management Unit),然后把这个内存地址映射到实际的物理内存地址上,然后通过总线再去访问内存,程序操作的地址称为虚拟内存地址
用户和内核空间
每个进程都包括5种不同的数据段
代码段:用来存放可执行文件的操作指令,也就是说是它是可执行程序在内存中的镜像。代码段需要防止在运行时被非法修改,所以只准许读取操作,而不允许写入(修改)操作——它是不可写的
数据段:用来存放可执行文件中已初始化全局变量,换句话说就是存放程序静态分配的变量和全局变量
BSS段:Block Started by Symbol”的缩写,意为以符号开始的块,BSS段包含了程序中未初始化的全局变量,在内存中 bss段全部置零
堆(heap):存放数组和对象,堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张);当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)
栈:栈是用户存放程序临时创建的局部变量,也就是说我们函数括弧“{}”中定义的变量(但不包括static声明的变量,static意味着在数据段中存放变量)。除此以外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。由于栈的后进先出特点,所以栈特别方便用来保存/恢复调用现场。可以把堆栈看成一个寄存、交换临时数据的内存区
进程使用内存问题
内存泄漏:Memory Leak
指程序中用malloc或new申请了一块内存,但是没有用free或delete将内存释放,导致这块内存一直处于占用状态
内存溢出:Memory Overflow
指程序申请了10M的空间,但是在这个空间写入10M以上字节的数据,就是溢出
内存不足:OOM
OOM 即 Out Of Memory,“内存用完了”,在情况在 java 程序中比较常见。系统会选一个进程将之杀死,在日志messages中看到类似下面的提示
Jul 10 10:20:30 kernel: Out of memory: Kill process 9527 (java) score 88 or sacrifice child
当 JVM 因为没有足够的内存来为对象分配空间并且垃圾回收器也已经没有空间可回收时,就会抛出这个error,因为这个问题已经严重到不足以被应用处理)。
原因:
给应用分配内存太少:比如虚拟机本身可使用的内存(一般通过启动时的VM参数指定)太少。
应用用的太多,并且用完没释放,浪费了。此时就会造成内存泄露或者内存溢出。
使用的解决办法:
1,限制java进程的max heap,并且降低java程序的worker数量,从而降低内存使用
2,给系统增加swap空间
设置内核参数(不推荐),不允许内存申请过量:
echo 2 > /proc/sys/vm/overcommit_memory
echo 80 > /proc/sys/vm/overcommit_ratio
echo 2 > /proc/sys/vm/panic_on_oom
说明:
Linux默认是允许memory overcommit的,只要你来申请内存我就给你,寄希望于进程实际上用不到那么多内存,但万一用到那么多了呢?Linux设计了一个OOM killer机制挑选一个进程出来杀死,以腾出部分内存,如果还不够就继续。也可通过设置内核参数 vm.panic_on_oom 使得发生OOM时自动重启系统。这都是有风险的制,重启有可能造成业务中断,杀死进程也有可能导致业务中断。所以Linux2.6之后允许通过内核参数 vm.overcommit_memory 禁止memory overcommit。
vm.panic_on_oom 决定系统出现oom的时候,要做的操作。接受的三种取值如下:
0 - 默认值,当出现oom的时候,触发oom killer
1 - 程序在有cpuset、memory policy、memcg的约束情况下的OOM,可以考虑不panic,而是启动OOMkiller。其它情况触发 kernel panic,即系统直接重启
2 - 当出现oom,直接触发kernel panic,即系统直接重启
vm.overcommit_memory 接受三种取值:
0 – Heuristic overcommit handling. 这是缺省值,它允许overcommit,但过于明目张胆的overcommit会被拒绝,比如malloc一次性申请的内存大小就超过了系统总内存。Heuristic的意思是“试探式的”,内核利用某种算法猜测你的内存申请是否合理,它认为不合理就会拒绝overcommit。
1 – Always overcommit. 允许overcommit,对内存申请来者不拒。内核执行无内存过量使用处理。使用这个设置会增大内存超载的可能性,但也可以增强大量使用内存任务的性能。
2 – Don’t overcommit. 禁止overcommit。 内存拒绝等于或者大于总可用 swap 大小以及
overcommit_ratio 指定的物理 RAM 比例的内存请求。如果您希望减小内存过度使用的风险,这个设置就是最好的。
kernel设有一个阈值,申请的内存总数超过这个阈值就算overcommit,在/proc/meminfo中可以看到
这个阈值的大小:
grep -i commit /proc/meminfo
CommitLimit: 5967744 kB
Committed_AS: 5363236 kB
CommitLimit 就是overcommit的阈值,申请的内存总数超过CommitLimit的话就算是overcommit。
此值通过内核参数vm.overcommit_ratio或vm.overcommit_kbytes间接设置的
vm.overcommit_ratio 是内核参数,缺省值是50,表示物理内存的50%。如果不想使用比率,也可以直接指定内存的字节数大小,通过另一个内核参数 vm.overcommit_kbytes 即可;
/proc/meminfo中的 Committed_AS 表示所有进程已经申请的内存总大小,(注意是已经申请的,不是已经分配的),如果 Committed_AS 超过 CommitLimit 就表示发生了 overcommit,超出越多表示overcommit 越严重。Committed_AS 的含义换一种说法就是,如果要绝对保证不发生OOM (out of memory) 需要多少物理内存。
范例
[root@centos8 ~]# cat /proc/sys/vm/panic_on_oom
0
[root@centos8 ~]# cat /proc/sys/vm/overcommit_memory
0
[root@centos8 ~]# cat /proc/sys/vm/overcommit_ratio
50
[root@centos8 ~]# grep -i commit /proc/meminfo
CommitLimit: 3021876 kB
Committed_AS: 340468 kB
进程状态
进程的基本状态
创建状态:进程在创建时需要申请一个空白PCB(process control block进程控制块),向其中填写控制和管理进程的信息,完成资源分配。如果创建工作无法完成,比如资源无法满足,就无法被调度运行,把此时进程所处状态称为创建状态
就绪状态:进程已准备好,已分配到所需资源,只要分配到CPU就能够立即运行
执行状态:进程处于就绪状态被调度后,进程进入执行状态
阻塞状态:正在执行的进程由于某些事件(I/O请求,申请缓存区失败)而暂时无法运行,进程受到阻塞。在满足请求时进入就绪状态等待系统调用
终止状态:进程结束,或出现错误,或被系统终止,进入终止状态。无法再执行
状态之间转换六种情况
运行——>就绪:1,主要是进程占用CPU的时间过长,而系统分配给该进程占用CPU的时间是有限的;
2,在采用抢先式优先级调度算法的系统中,当有更高优先级的进程要运行时,该进程就被迫让出CPU,该进程便由执行状态转变为就绪状态
就绪——>运行:运行的进程的时间片用完,调度就转到就绪队列中选择合适的进程分配CPU
运行——>阻塞:正在执行的进程因发生某等待事件而无法执行,则进程由执行状态变为阻塞状态,如
发生了I/O请求
阻塞——>就绪:进程所等待的事件已经发生,就进入就绪队列
以下两种状态是不可能发生的:
阻塞——>运行:即使给阻塞进程分配CPU,也无法执行,操作系统在进行调度时不会从阻塞队列进行挑选,而是从就绪队列中选取
就绪——>阻塞:就绪态根本就没有执行,谈不上进入阻塞态
进程更多的状态:
运行态:running
就绪态:ready
睡眠态:分为两种,可中断:interruptable,不可中断:uninterruptable
停止态:stopped,暂停于内存,但不会被调度,除非手动启动
僵死态:zombie,僵尸态,结束进程,父进程结束前,子进程不关闭,杀死父进程可以关闭僵死态 的子进程
范例:僵尸态
[root@centos8 ~]# bash
[root@centos8 ~]# echo $BASHPID
1809
[root@centos8 ~]# echo $PPID
1436
#将父进程设为停止态
[root@centos8 ~]# kill -19 1436
#杀死子进程,使其进入僵尸态
[root@centos8 ~]# kill 1809
[root@centos8 ~]# ps aux #可以看到上面图示的结果,STAT为Z,表示为僵尸态
#方法1:恢复父进程
[root@centos8 ~]# kill -18 1436
#方法2:杀死父进程
[root@centos8 ~]# kill -9 1436
#再次观察,可以僵尸态的进程不存在了
[root@centos8 ~]# ps aux
LRU 算法
范例:
假设序列为 4 3 4 2 3 1 4 2, 物理块有3个,则
第1轮 4调入内存 4
第2轮 3调入内存 3 4
第3轮 4调入内存 4 3
第4轮 2调入内存 2 4 3
第5轮 3调入内存 3 2 4
第6轮 1调入内存 1 3 2
第7轮 4调入内存 4 1 3
第8轮 2调入内存 2 4 1
IPC 进程间通信
同一主机:
pipe 管道,单向传输
socket 套接字文件,双向传输
Memory-maped file 文件映射,将文件中的一段数据映射到物理内存,多个进程共享这片内存
shm shared memory 共享内存
signal 信号
Lock 对资源上锁,如果资源已被某进程锁住,则其它进程想修改甚至读取这些资源,都将被阻塞,直到锁被打开
semaphore 信号量,一种计数器
不同主机:socket=IP和端口号
RPC remote procedure call
MQ 消息队列,生产者和消费者,如:Kafka,RabbitMQ,ActiveMQ
范例:利用管道文件实现进IPC
[root@centos8 ~]# mkfifo /data/test.fifo
[root@centos8 ~]# ll /data/test.fifo
prw-r--r-- 1 root root 0 May 6 14:32 /data/test.fifo
[root@centos8 ~]# cat > /data/test.fifo
longwang
#在另一个终端可以从文件中读取数据
[root@centos8 ~]# cat /data/test.fifo
longwang
范例:查找socket文件
[root@centos8 ~]# find / -type s -ls
进程优先级
系统优先级: 0-139, 数字越小,优先级越高 各有140个运行队列和过期队列
实时优先级: 99-0 值最大优先级最高
nice值:-20到19,对应系统优先级100-139
进程分类
操作系统分类:
协作式多任务:早期 windows 系统使用,即一个任务得到了 CPU 时间,除非它自己放弃使用CPU ,否则将完全霸占 CPU ,所以任务之间需要协作——使用一段时间的 CPU ,主动放弃使用
抢占式多任务:Linux内核,CPU的总控制权在操作系统手中,操作系统会轮流询问每一个任务是否需要使用 CPU ,需要使用的话就让它用,不过在一定时间后,操作系统会剥夺当前任务的 CPU使用权,把它排在询问队列的最后,再去询问下一个任务
进程类型:
守护进程: daemon,在系统引导过程中启动的进程,和终端无关进程
前台进程:跟终端相关,通过终端启动的进程
注意:两者可相互转化
按进程资源使用的分类:
CPU-Bound:CPU密集型,非交互
IO-Bound:IO密集型,交互
进程管理和性能相关工具
Linux系统状态的查看及管理工具:pstree, ps, pidof, pgrep, top, htop, glance, pmap, vmstat, dstat, kill, pkill, job, bg, fg, nohup
进程树 pstree
pstree 可以用来显示进程的父子关系,以树形结构显示
格式
pstree [OPTION] [ PID | USER ]
常用选项
-p 显示PID
-T 不显示线程thread,默认显示线程
-u 显示用户切换
-H pid 高度指定进程及其前辈进程
范例
[root@centos8 ~]# pstree 1
systemd─┬─NetworkManager───2*[{NetworkManager}]
├─VGAuthService
├─agetty
├─atd
├─auditd───{auditd}
├─automount───4*[{automount}]
├─crond
├─dbus-daemon
├─httpd─┬─httpd
...省略
[root@centos8 ~]# pstree long
bash───ping
[root@centos8 ~]# pstree -T
systemd─┬─NetworkManager
├─VGAuthService
├─agetty
├─atd
├─auditd
├─automount
├─crond
├─dbus-daemon
├─httpd───4*[httpd]
...省略
[root@centos8 ~]# pstree -pT
systemd(1)─┬─NetworkManager(788)
├─VGAuthService(783)
├─agetty(889)
├─atd(874)
├─auditd(756)
├─automount(864)
├─crond(875)
...省略
[root@centos8 ~]# pstree -u
systemd─┬─NetworkManager───2*[{NetworkManager}]
├─VGAuthService
├─agetty
├─atd
├─auditd───{auditd}
├─automount───4*[{automount}]
├─crond
├─dbus-daemon(dbus)
...省略
范例:高亮显示前辈进程
[root@centos8 ~]# pstree -pH 1780
进程信息 ps
ps 即process state,可以进程当前状态的快照,默认显示当前终端中的进程,Linux系统各进程的相关信息均保存在/proc/PID目录下的各文件中
ps 格式
ps [OPTION]...
支持三种选项:
UNIX选项 如: -A -e
BSD选项 如: a
GNU选项 如: --help
常用选项:
a 选项包括所有终端中的进程
x 选项包括不链接终端的进程
u 选项显示进程所有者的信息
f 选项显示进程树,相当于 --forest
k|--sort 属性 对属性排序,属性前加 - 表示倒序
o 属性… 选项显示定制的信息 pid、cmd、%cpu、%mem
L 显示支持的属性列表
-C cmdlist 指定命令,多个命令用,分隔
-L 显示线程
-e 显示所有进程,相当于-A
-f 显示完整格式程序信息
-F 显示更完整格式的进程信息
-H 以进程层级格式显示进程相关信息
-u userlist 指定有效的用户ID或名称
-U userlist 指定真正的用户ID或名称
-g gid或groupname 指定有效的gid或组名称
-G gid或groupname 指定真正的gid或组名称
-p pid 显示指pid的进程
--ppid pid 显示属于pid的子进程
-t ttylist 指定tty,相当于 t
-M 显示SELinux信息,相当于Z
ps 输出属性
C : ps -ef 显示列 C 表示cpu利用率
VSZ: Virtual memory SiZe,虚拟内存集,线性内存
RSS: ReSident Size, 常驻内存集
STAT:进程状态
R:running
S: interruptable sleeping
D: uninterruptable sleeping
T: stopped
Z: zombie
+: 前台进程
l: 多线程进程
L:内存分页并带锁
N:低优先级进程
<: 高优先级进程
s: session leader,会话(子进程)发起者
I:Idle kernel thread,CentOS 8 新特性
ni: nice值
pri: priority 优先级
rtprio: 实时优先级
psr: processor CPU编号
示例:
ps axo pid,cmd,psr,ni,pri,rtprio
常用组合:
aux
-ef
-eFH
-eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,comm
axo stat,euid,ruid,tty,tpgid,sess,pgrp,ppid,pid,pcpu,comm
范例:查看进程详细信息
# 列 C 表示 CPU利用率
[root@centos8 ~]# ps -ef
UID PID PPID C STIME TTY TIME CMD
root 1 0 0 13:55 ? 00:00:02 /usr/lib/systemd/systemd --
switched-root --system --deserial
root 2 0 0 13:55 ? 00:00:00 [kthreadd]
root 3 2 0 13:55 ? 00:00:00 [rcu_gp]
root 4 2 0 13:55 ? 00:00:00 [rcu_par_gp]
[root@centos8 ~]# ps aux
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 1 0.0 0.6 176432 5596 ? Ss 13:55 0:02
/usr/lib/systemd/systemd --switched-root --s
root 2 0.0 0.0 0 0 ? S 13:55 0:00 [kthreadd]
root 3 0.0 0.0 0 0 ? I< 13:55 0:00 [rcu_gp]
范例
#查看进程的父子关系
[root@centos8 ~]# ps auxf
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 2 0.0 0.0 0 0 ? S 13:55 0:00 [kthreadd]
root 3 0.0 0.0 0 0 ? I< 13:55 0:00 \_ [rcu_gp]
root 4 0.0 0.0 0 0 ? I< 13:55 0:00 \_
[rcu_par_gp]
root 6 0.0 0.0 0 0 ? I< 13:55 0:00 \_
[kworker/0:0H-kblockd]
root 7 0.0 0.0 0 0 ? I 13:55 0:00 \_
...省略
#查看进程的特定属性
[root@centos8 ~]# ps axo pid,cmd,%mem,%cpu
PID CMD %MEM %CPU
1 /usr/lib/systemd/systemd -- 1.2 0.0
2 [kthreadd] 0.0 0.0
3 [rcu_gp] 0.0 0.0
范例:针对属性排序,CentOS6 以下版本不支持
#按CPU利用率倒序排序
[root@centos8 ~]# ps axo pid,cmd,%cpu,%mem k -%cpu
PID CMD %CPU %MEM
1907 dd if=/dev/zero of=/dev/nul 94.5 0.0
1914 ping 127.0.1 -f 66.0 0.2
1915 [kworker/u256:2-events_unbo 0.7 0.0
1 /usr/lib/systemd/systemd -- 0.0 1.2
2 [kthreadd] 0.0 0.0
3 [rcu_gp] 0.0 0.0
4 [rcu_par_gp] 0.0 0.0
#按内存倒序排序
[root@centos8 ~]# ps axo pid,cmd,%cpu,%mem --sort -%mem
PID CMD %CPU %MEM
772 /usr/libexec/sssd/sssd_nss 0.0 4.5
733 /usr/libexec/platform-pytho 0.0 4.0
670 /usr/lib/polkit-1/polkitd - 0.0 2.9
665 /usr/sbin/NetworkManager -- 0.0 2.1
668 /usr/bin/vmtoolsd 0.0 1.8
范例:有效用户和实际用户
[long@centos8 ~]$ passwd
Changing password for user long.
Current password:
[root@centos8 ~]# ps axo pid,cmd,%cpu,%mem,user,euser,ruser | grep passwd
1965 passwd 0.0 1.0 root root long
1970 grep --color=auto passwd 0.0 0.1 root root root
范例
#查询你拥有的所有进程
ps -x
#显示指定用户名(RUID)或用户ID的进程
ps -fU apache
ps -fU 48
#显示指定用户名(EUID)或用户ID的进程
ps -fu long
ps -fu 1000
#查看以root用户权限(实际和有效ID)运行的每个进程
ps -U root -u root
#列出某个组拥有的所有进程(实际组ID:RGID或名称)
ps -fG nginx
#列出有效组名称(或会话)所拥有的所有进程
ps -fg mysql
ps -fg 27
#显示指定的进程ID对应的进程
ps -fp 1234
#以父进程ID来显示其下所有的进程,如显示父进程为1234的所有进程
ps -f --ppid 1234
#显示指定PID的多个进程
ps -fp 1204,1239,1263
#要按tty显示所属进程
ps -ft pts/0
#以进程树显示系统中的进程如何相互链接
ps -e --forest
#以进程树显示指定的进程
ps -f --forest -C sshd
ps -ef --forest | grep -v grep | grep sshd
#要显示一个进程的所有线程,将显示LWP(轻量级进程)以及NLWP(轻量级进程数)列
ps -fL -C nginx
#要列出所有格式说明符
ps L
#查看进程的PID,PPID,用户名和命令
ps -eo pid,ppid,user,cmd
#自定义格式显示文件系统组,ni值开始时间和进程的时间
ps -p 1234 -o pid,ppid,fgroup,ni,lstart,etime
#使用其PID查找进程名称:
ps -p 1244 -o comm=
#要以其名称选择特定进程,显示其所有子进程
ps -C sshd,bash
#查找指定进程名所有的所属PID,在编写需要从std输出或文件读取PID的脚本时这个参数很有用
ps -C httpd,sshd -o pid=
#检查一个进程的执行时间
ps -eo comm,etime,user | grep nginx
#排序,查找占用最多内存和CPU的进程
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head
#显示安全信息
ps -eM
ps --context
#使用以下命令以用户定义的格式显示安全信息
ps -eo euser,ruser,suser,fuser,f,comm,label
#使用watch实用程序执行重复的输出以实现对就程进行实时的监视,如下面的命令显示每秒钟的监视
watch -n 1 'ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head'
面试题:找到未知进程的执行程序文件路径
[root@centos8 ~]# ls -l /proc/1272/exe
lrwxrwxrwx 1 root root 0 Jan 4 15:47 /proc/1272/exe -> /usr/bin/bash
范例:查看优先级和CPU绑定关系
[root@centos8 ~]# ps axo pid,cmd,ni,pri,psr,rtprio |grep migration
11 [migration/0] - 139 0 99
16 [migration/1] - 139 1 99
2246 grep --color=auto migration 0 19 0 -
[root@centos8 ~]# ps axo pid,cmd,ni,pri,psr |grep dd
2 [kthreadd] 0 19 1
138 [ipv6_addrconf] -20 39 0
2153 dd if=/dev/zero of=/dev/nul 19 0 0
2228 grep --color=auto dd 0 19 1
范例:实现进程和CPU的绑定
[root@centos8 ~]# taskset --help
Usage: taskset [options] [mask | cpu-list] [pid|cmd [args...]]
查看进程信息prtstat
可以显示进程信息,来自于psmisc包
格式
prtstat [options] PID ...
选项
-r raw 格式显示
[root@centos8 ~]# prtstat 18395
Process: httpd State: S (sleeping)
CPU#: 1 TTY: 0:0 Threads: 65
Process, Group and Session IDs
Process ID: 18395 Parent ID: 18386
[root@centos8 ~]# prtstat -r 18395
pid: 18395 comm: httpd
state: S ppid: 18386
pgrp: 18386 session: 18386
tty_nr: 0 tpgid: -1
flags: 400140 minflt: 509
设置和调整进程优先级
进程优先级调整
静态优先级:100-139
进程默认启动时的nice值为0,优先级为120
只有根用户才能降低nice值(提高优先性)
nice命令
以指定的优先级来启动进程
nice [OPTION] [COMMAND [ARG]...]
-n, --adjustment=N add integer N to the niceness (default 10)
renice命令
可以调整正在执行中的进程的优先级
renice [-n] priority pid...
查看
ps axo pid,comm,ni
范例
[root@centos8 ~]# nice -n -10 ping 127.0.0.1
[root@centos8 ~]# ps axo pid,cmd,nice |grep ping
2118 ping 127.0.0.1 -10
2120 grep --color=auto ping 0
[root@centos8 ~]# renice -n -20 2118
2106 (process ID) old priority -10, new priority -20
[root@centos8 ~]# ps axo pid,cmd,nice |grep ping
2118 ping 127.0.0.1 -20
2200 grep --color=auto ping 0
搜索进程
按条件搜索进程
ps 选项 | grep 'pattern' 灵活
pgrep 按预定义的模式
/sbin/pidof 按确切的程序名称查看pid
pgrep
命令格式
pgrep [options] pattern
常用选项
-u uid: effective user,生效者
-U uid: real user,真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名
-a: 显示完整格式的进程名
-P pid: 显示指定进程的子进程
范例
[root@centos8 ~]# pgrep -u wang
2303
2330
[root@centos8 ~]# pgrep -lu wang
2303 bash
2330 dd
#错误写法
[root@centos8 ~]# pgrep -ul wang
pgrep: invalid user name: l
[root@centos8 ~]# pgrep -au wang
2303 -bash
2330 dd if=/dev/zero of=/dev/null
[root@centos8 ~]# pgrep -aP 2303
2330 dd if=/dev/zero of=/dev/null
[root@centos8 ~]# pgrep -at pts/2
1482 -bash
2302 su - wang
2303 -bash
2330 dd if=/dev/zero of=/dev/null
pidof
命令格式
pidof [options] [program [...]]
常用命令
-x 按脚本名称查找pid
范例
[root@centos8 ~]# pidof bash
19035 18813 18789 1251
[root@centos8 ~]# pidof ping.sh
[root@centos8 ~]# pidof -x ping.sh
19035
负载查询 uptime
/proc/uptime 包括两个值,单位 s
系统启动时长
空闲进程的总时长(按总的CPU核数计算)
uptime 和 w 显示以下内容
当前时间
系统已启动的时间
当前上线人数
系统平均负载(1、5、15分钟的平均负载,一般不会超过1,超过5时建议警报)
系统平均负载: 指在特定时间间隔内运行队列中的平均进程数,通常每个CPU内核的当前活动进程数不大于3,那么系统的性能良好。如果每个CPU内核的任务数大于5,那么此主机的性能有严重问题
如:linux主机是1个双核CPU,当Load Average 为6的时候说明机器已经被充分使用
范例
[root@centos8 ~]# uptime
09:38:34 up 1 day, 1:04, 2 users, load average: 0.00, 0.00, 0.00
[root@centos8 ~]# w
09:38:29 up 1 day, 1:04, 2 users, load average: 0.00, 0.00, 0.00
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
root pts/0 10.0.0.1 Wed08 0.00s 0.32s 0.00s w
root pts/1 10.0.0.1 09:10 5:25 0.06s 0.00s /bin/bash
显示CPU相关统计 mpstat
来自于sysstat包
范例
[root@centos8 ~]# yum install -y sysstat
[root@centos8 ~]# mpstat
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4
CPU)
10:16:43 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest
%gnice %idle
10:16:43 AM all 0.01 0.00 0.03 0.00 0.01 0.01 0.00 0.00
0.00 99.93
[root@centos8 ~]# mpstat 1 3
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4
CPU)
10:16:48 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest
%gnice %idle
10:16:49 AM all 0.00 0.00 0.25 0.00 0.00 0.00 0.00 0.00
0.00 99.75
10:16:50 AM all 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
查看进程实时状态 top
top 提供动态的实时进程状态
有许多内置命令
帮助:h 或 ? ,按 q 或esc 退出帮助
排序:
P:以占据的CPU百分比,%CPU
M:占据内存百分比,%MEM
T:累积占据CPU时长,TIME+
首部信息显示:
uptime信息:l 命令
tasks及cpu信息:t 命令
cpu分别显示:1 (数字)
memory信息:m 命令
退出命令:q
修改刷新时间间隔:s
终止指定进程:k
保存文件:W
top命令栏位信息简介
us:用户空间
sy:内核空间
ni:调整nice时间
id:空闲
wa:等待IO时间
hi:硬中断
si:软中断(模式切换)
st:虚拟机偷走的时间
top 选项
-d # 指定刷新时间间隔,默认为3秒
-b 全部显示所有进程
-n # 刷新多少次后退出
-H 线程模式
示例
top -H -p `pidof mysqld`
htop命令:增强版的TOP命令,来自EPEL源,比top功能更强
选项
-d #: 指定延迟时间;
-u UserName: 仅显示指定用户的进程
-s COLUME: 以指定字段进行排序
子命令:
s:跟踪选定进程的系统调用
l:显示选定进程打开的文件列表
a:将选定的进程绑定至某指定CPU核心
t:显示进程树
内存空间 free
free 可以显示内存空间使用状态
格式
free [OPTION]
常用选项
-b 以字节为单位
-m 以MB为单位
-g 以GB为单位
-h 易读格式
-o 不显示-/+buffers/cache行
-t 显示RAM + swap的总和
-s n 刷新间隔为n秒
-c n 刷新n次后即退出
范例
[16:04:00 root@sz-kx-centos8 ~]# free -h
total used free shared buff/cache available
Mem: 1.8Gi 538Mi 423Mi 96Mi 844Mi 988Mi
Swap: 2.0Gi 0B 2.0Gi
[root@centos8 ~]# echo 3 > /proc/sys/vm/drop_caches
[root@centos8 ~]# free -h
total used free shared buff/cache available
Mem: 1.8Gi 320Mi 1.3Gi 9.0Mi 152Mi 1.3Gi
Swap: 2.0Gi 0B 2.0Gi
进程对应的内存映射pmap
格式
pmap [options] pid [...]
常用选项
-x: 显示详细格式的信息
范例
pmap 1
另外一种实现
cat /proc/PID/maps
范例
[root@centos8 ~]# pmap 33477
33477: ping 127.0.0.1
000055f708aa7000 56K r-x-- ping
000055f708cb5000 4K r---- ping
000055f708cb6000 4K rw--- ping
000055f708cb7000 140K rw--- [ anon ]
000055f70a7cc000 132K rw--- [ anon ]
...省略
#查看系统调用
[root@centos7 ~]# dnf -y install strace
[root@centos7 ~]# strace ls
execve("/usr/bin/ls", ["ls"], 0x7ffd4b9dad50 /* 25 vars */) = 0
brk(NULL) = 0x55ed4c7d7000
arch_prctl(0x3001 /* ARCH_??? */, 0x7ffd500ae390) = -1 EINVAL (Invalid argument)
access("/etc/ld.so.preload", R_OK) = -1 ENOENT (No such file or directory)
openat(AT_FDCWD, "/etc/ld.so.cache", O_RDONLY|O_CLOEXEC) = 3
fstat(3, {st_mode=S_IFREG|0644, st_size=73944, ...}) = 0
mmap(NULL, 73944, PROT_READ, MAP_PRIVATE, 3, 0) = 0x7fce5dfa7000
close(3) = 0
#查看库调用
[root@centos7 ~]# yum -y install ltrace
[root@centos7 ~]# ltrace ls
__libc_start_main(0x402910, 1, 0x7ffcca28b1b8, 0x4129a0 <unfinished ...>
strrchr("ls", '/')
虚拟内存信息vmstat
格式
vmstat [options] [delay [count]]
显示项说明
procs:
r:可运行(正运行或等待运行)进程的个数,和核心数有关
b:处于不可中断睡眠态的进程个数(被阻塞的队列的长度)
memory:
swpd: 交换内存的使用总量
free:空闲物理内存总量
buffer:用于buffer的内存总量
cache:用于cache的内存总量
swap:
si:从磁盘交换进内存的数据速率(kb/s)
so:从内存交换至磁盘的数据速率(kb/s)
io:
bi:从块设备读入数据到系统的速率(kb/s)
bo: 保存数据至块设备的速率
system:
in: interrupts 中断速率,包括时钟
cs: context switch 进程切换速率
cpu:
us:Time spent running non-kernel code
sy: Time spent running kernel code
id: Time spent idle. Linux 2.5.41前,包括IO-wait time.
wa: Time spent waiting for IO. 2.5.41前,包括in idle.
st: Time stolen from a virtual machine. 2.6.11前, unknown.
选项
-s: 显示内存的统计数据
范例
[root@centos8 ~]# vmstat
[root@centos8 ~]# vmstat 1 3 # 动态每秒显示一次,显示到第三次停止
[root@centos8 ~]# vmstat -s
1849460 K total memory
314348 K used memory
264424 K active memory
192500 K inactive memory
1125128 K free memory
5308 K buffer memory
统计CPU和设备IO信息iostat
此工具由sysstat包提供
范例
[root@centos8 ~]# iostat
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4
CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.01 0.00 0.06 0.00 0.00 99.93
[root@centos8 ~]# iostat 1 3 # 动态每秒显示一次,显示到第三次停止
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4
CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.01 0.00 0.06 0.00 0.00 99.93
系统资源统计 dstat
dstat 由pcp-system-tools包提供,用于代替 vmstat,iostat功能
格式
dstat [-afv] [options..] [delay [count]]
常用选项
-c 显示cpu相关信息
-C #,#,...,total
-d 显示disk相关信息
-D total,sda,sdb,...
-g 显示page相关统计数据
-m 显示memory相关统计数据
-n 显示network相关统计数据
-p 显示process相关统计数据
-r 显示io请求相关的统计数据
-s 显示swapped相关的统计数据
--tcp
--udp
--unix
--raw
--socket
--ipc
--top-cpu:显示最占用CPU的进程
--top-io: 显示最占用io的进程
--top-mem: 显示最占用内存的进程
--top-latency: 显示延迟最大的进程
范例
[root@centos8 ~]# yum -y install dstat
[root@centos8 ~]# dstat 1 6 # 动态每秒显示一次,显示到第六次停止
监视磁盘I/O iotop
来自于iotop包
iotop命令是一个用来监视磁盘I/O使用状况的top类工具iotop具有与top相似的UI,其中包括PID、用户、I/O、进程等相关信息,可查看每个进程是如何使用IO
iotop输出
第一行:Read和Write速率总计
第二行:实际的Read和Write速率
第三行:参数如下:
线程ID(按p切换为进程ID)
优先级
用户
磁盘读速率
磁盘写速率
swap交换百分比
IO等待所占的百分比
iotop 常用参数
-o, --only只显示正在产生I/O的进程或线程,除了传参,可以在运行过程中按o生效
-b, --batch非交互模式,一般用来记录日志
-n NUM, --iter=NUM设置监测的次数,默认无限。在非交互模式下很有用
-d SEC, --delay=SEC设置每次监测的间隔,默认1秒,接受非整形数据例如1.1
-p PID, --pid=PID指定监测的进程/线程
-u USER, --user=USER指定监测某个用户产生的I/O
-P, --processes仅显示进程,默认iotop显示所有线程
-a, --accumulated显示累积的I/O,而不是带宽
-k, --kilobytes使用kB单位,而不是对人友好的单位。在非交互模式下,脚本编程有用
-t, --time 加上时间戳,非交互非模式
-q, --quiet 禁止头几行,非交互模式,有三种指定方式
-q 只在第一次监测时显示列名
-qq 永远不显示列名
-qqq 永远不显示I/O汇总
交互按键
left 和 right 方向键:改变排序
r:反向排序
o:切换至选项--only
p:切换至--processes选项
a:切换至--accumulated选项
q:退出
i:改变线程的优先级
显示网络带宽使用情况iftop
通过EPEL源安装iftop包
查看网络实时吞吐量nload
nload 是一个实时监控网络流量和带宽使用情况,以数值和动态图展示进出的流量情况,通过EPEL源安装
界面操作
上下方向键、左右方向键、enter键或者tab键都就可以切换查看多个网卡的流量情况
按 F2 显示选项窗口
按 q 或者 Ctrl+C 退出 nload
范例
#默认只查看第一个网络的流量进出情况
nload
#在nload后面指定网卡,可以指定多个,按左右键分别显示网卡状态
nload eth0 eth1
#设置刷新间隔:默认刷新间隔是100毫秒,可通过 -t 命令设置刷新时间(单位是毫秒)
nload -t 500 eth0
#设置单位:显示两种单位一种是显示Bit/s、一种是显示Byte/s,默认是以Bit/s,也可不显示/s
#-u h|b|k|m|g|H|B|K|M|G 表示的含义: h: auto, b: Bit/s, k: kBit/s, m: MBit/s, H:
auto, B: Byte/s, K: kByte/s, M: MByte/s
nload -u M eth0
综合监控工具 glances
此工具可以通过EPEL源安装
格式
glances [-bdehmnrsvyz1] [-B bind] [-c server] [-C conffile] [-p port] [-P
password] [--password] [-t refresh] [-f file] [-o output]
内建命令:
a Sort processes automatically l Show/hide logs
c Sort processes by CPU% b Bytes or bits for network I/O
m Sort processes by MEM% w Delete warning logs
p Sort processes by name x Delete warning and critical logs
i Sort processes by I/O rate 1 Global CPU or per-CPU stats
d Show/hide disk I/O stats h Show/hide this help screen
f Show/hide file system stats t View network I/O as combination
n Show/hide network stats u View cumulative network I/O
s Show/hide sensors stats q Quit (Esc and Ctrl-C also work)
y Show/hide hddtemp stats
常用选项
-b: 以Byte为单位显示网卡数据速率
-d: 关闭磁盘I/O模块
-f /path/to/somefile: 设定输入文件位置
-o {HTML|CSV}:输出格式
-m: 禁用mount模块
-n: 禁用网络模块
-t #: 延迟时间间隔
-1:每个CPU的相关数据单独显示
C/S模式下运行glances命令
服务器模式:
glances -s -B IPADDR
IPADDR: 指明监听的本机哪个地址
客户端模式:
glances -c IPADDR
IPADDR:要连入的服务器端地址
查看进程打开文件 lsof
lsof:list open files,查看当前系统文件的工具。在linux环境下,一切皆文件,用户通过文件不仅可以访问常规数据,还可以访问网络连接和硬件如传输控制协议 (TCP) 和用户数据报协议 (UDP)套接字等,系统在后台都为该应用程序分配了一个文件描述符
命令选项
-a:列出打开文件存在的进程
-c<进程名>:列出指定进程所打开的文件
-g:列出GID号进程详情
-d<文件号>:列出占用该文件号的进程
+d<目录>:列出目录下被打开的文件
+D<目录>:递归列出目录下被打开的文件
-n<目录>:列出使用NFS的文件
-i<条件>:列出符合条件的进程(4、6、协议、:端口、 @ip )
-p<进程号>:列出指定进程号所打开的文件
-u:列出UID号进程详情
-h:显示帮助信息
-v:显示版本信息。
-n: 不反向解析网络名字
范例
#查看由登陆用户启动而非系统启动的进程
lsof /dev/pts/1
#指定进程号,可以查看该进程打开的文件
lsof -p 9527
[root@centos8 ~]# lsof -p `pidof bc`
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
bc 1929 root cwd DIR 8,2 286 201326721 /root
bc 1929 root rtd DIR 8,2 4096 128 /
bc 1929 root txt REG 8,2 97256 201784353 /usr/bin/bc
...省略
#查看指定程序打开的文件
lsof -c httpd
[root@centos8 ~]# lsof -c bc
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
bc 1929 root cwd DIR 8,2 286 201326721 /root
bc 1929 root rtd DIR 8,2 4096 128 /
bc 1929 root txt REG 8,2 97256 201784353 /usr/bin/bc
...省略
#查看指定用户打开的文件
lsof -u root | more
#查看指定目录下被打开的文件,参数+D为递归列出目录下被打开的文件,参数+d为列出目录下被打开的文件
lsof +D /var/log/
lsof +d /var/log/
#查看所有网络连接,通过参数-i查看网络连接的情况,包括连接的ip、端口等以及一些服务的连接情况,例如:sshd等。也可以通过指定ip查看该ip的网络连接情况
lsof -i –n
lsof -i@127.0.0.1
#查看端口连接情况,通过参数-i:端口可以查看端口的占用情况,-i参数还有查看协议,ip的连接情况等
lsof -i :80 -n
#查看指定进程打开的网络连接,参数-i、-a、-p等,-i查看网络连接情况,-a查看存在的进程,-p指定进程
lsof -i –n -a -p 9527
#查看指定状态的网络连接,-n:no host names, -P:no port names,-i TCP指定协议,-s指定协议状态通过多个参数可以清晰的查看网络连接情况、协议连接情况等
lsof -n -P -i TCP -s TCP:ESTABLISHED
范例:利用 lsof 恢复正在使用中的误删除的文件
lsof |grep /var/log/messages
rm -f /var/log/messages
lsof |grep /var/log/messages
cat /proc/653/fd/6
cat /proc/653/fd/6 > /var/log/messages
CentOS 8 新特性 cockpit
Cockpit 是CentOS 8 取入的新特性,是一个基于 Web 界面的应用,它提供了对系统的图形化管理
监控系统活动(CPU、内存、磁盘 IO 和网络流量)
查看系统日志条目
查看磁盘分区的容量
查看网络活动(发送和接收)
查看用户帐户
检查系统服务的状态
提取已安装应用的信息
查看和安装可用更新(如果以 root 身份登录)并在需要时重新启动系统
打开并使用终端窗口
范例:安装 cockpit
[root@centos8 ~]# dnf -y install cockpit
[root@centos8 ~]# systemctl enable --now cockpit.socket
Created symlink /etc/systemd/system/sockets.target.wants/cockpit.socket →
/usr/lib/systemd/system/cockpit.socket.
打开浏览器,访问以下地址:
https://centos8主机:9090
信号发送 kill
kill:内部命令,可用来向进程发送控制信号,以实现对进程管理,每个信号对应一个数字,信号名称以SIG开头(可省略),不区分大小写
显示当前系统可用信号:
kill -l
trap -l
查看帮助:man 7 signal
常用信号:
1) SIGHUP 无须关闭进程而让其重读配置文件
2) SIGINT 中止正在运行的进程;相当于Ctrl+c
3) SIGQUIT 相当于ctrl+
9) SIGKILL 强制杀死正在运行的进程
15) SIGTERM 终止正在运行的进程,默认信号
18) SIGCONT 继续运行
19) SIGSTOP 后台休眠
指定信号的方法 :
信号的数字标识:1, 2, 9
信号完整名称:SIGHUP,sighup
信号的简写名称:HUP,hup
向进程发送信号:
按PID:
kill [-s sigspec | -n signum | -sigspec] pid | jobspec ... or kill -l [sigspec]
范例:
kill -1 pid …
kill -n 9 pid
kill -s SIGINT pid
按名称:killall 来自于psmisc包
killall [-SIGNAL] comm…
按模式:
pkill [options] pattern
常用选项
-SIGNAL
-u uid: effective user,生效者
-U uid: real user,真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名(pgrep可用)
-a: 显示完整格式的进程名(pgrep可用)
-P pid: 显示指定进程的子进程
范例:查看HUP信号
#许多服务的支持的reload操作,实际就是发送了HUP信号
#service httpd reload 即相当于 killall -1 httpd
[root@centos6 ~]# grep -A 10 -w reload -m 1 /etc/init.d/httpd
reload() {
echo -n $"Reloading $prog: "
if ! LANG=$HTTPD_LANG $httpd $OPTIONS -t >&/dev/null; then
RETVAL=6
echo $"not reloading due to configuration syntax error"
failure $"not reloading $httpd due to configuration syntax error"
else
# Force LSB behaviour from killproc
LSB=1 killproc -p ${pidfile} $httpd -HUP
RETVAL=$?
if [ $RETVAL -eq 7 ]; then
范例:利用 0 信号实现进程的健康性检查
[root@centos8 ~]# man kill
If signal is 0, then no actual signal is sent, but error checking is still
performed.
[root@centos8 ~]# killall -0 ping
[root@centos8 ~]# echo $?
0
[root@centos8 ~]# killall -0 ping
ping: no process found
[root@centos8 ~]# echo $?
1
#此方式有局限性,即使进程处于停止或僵尸状态,此方式仍然认为是进程是健康的