cpu
top
uptime
dstat
内存
free
vmstat
dstat
磁盘
iostat
iotop
df
dstat
网络
ifstat
dstat
dstat -c -m -p --io -s -t -d -l --output /home/hxetest/ttt.csv 2
watch -n 2 nvidia-smi >> /home/hxe/test.log
网络监控
psutil python
import psutil
def get_network():
recv1=psutil.net_io_counters().bytes_recv/1024
sent1=psutil.net_io_counters().bytes_sent/1024
time.sleep(1)
recv2=psutil.net_io_counters().bytes_recv/1024
sent2=psutil.net_io_counters().bytes_sent/1024
recv=recv2-recv1
sent=sent2-sent1
res = ['input:'+str(round(recv,2))+' '+'kb/s','output: '+str(round(sent,2))+' '+'kb/s']
#print(' '.join(res))
return res
GPU监控
GPUtil python
import GPUtil
def get_gpu_info():
'''
:return:
'''
gpulist = []
Gpus = GPUtil.getGPUs()
GPUtil.showUtilization()
# 获取多个GPU的信息,存在列表里
for gpu in Gpus:
# 按GPU逐个添加信息
gpulist.append([
'驱动:',gpu.driver,
'gpu.id:',gpu.id,
'显存总量:',gpu.memoryTotal,
'显存使用量:', gpu.memoryUsed,
'显存使用占比:',gpu.memoryUtil * 100,
'GPU使用占比:', gpu.load * 100,
'display_mode:',gpu.display_mode,
'display_active:',gpu.display_active,
'温度:',gpu。temperature,
])
nvidia-smi
nvidia-smi -l 1 --format=csv --filename=report.csv --query-gpu=timestamp,name,index,utilization.gpu,memory.total,memory.used,power.draw
--query-gpu
用于指定输出的内容
nvidia-smi --help-query-gpu
查看可用的输出指令
上面的内容,主要还是一些知识点整理和个人的一些思考,权当参考,如有错误或者更好的建议,可以在评论区指正,不胜感激!