问题分析
在显卡上长时间运行很多的程序, 导致显卡过热, 出现问题.
解决方法
- 停掉 所有 在显卡上运行的程序, ERR会消失
- 设置显卡的persistence mode, 按照这个教程.
- 限制最大的运行功率不要太大
sudo nvidia-smi -pl 200 -i 2 # 指定卡2的最大功率为200
再次运行nvidia-smi显示卡2的运行功率已经调整好了
注: 单独跑一个程序的时候, 200W的功率已经足够了, 可缓解产热过多的问题. 其他卡如果没有出现这种情况, 可以不用调整最大功率.
参考
# 重启显卡命令
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm