为 NVIDIA GeForce 2080 Ti 显卡降温
2021-08-08
GeForce 2080 Ti 的降温问题
最近使用一块 2080 Ti 显卡训练模型,发现风扇始终不能稳定运转,周期性地狂转一会儿,噪声很大,用nvidia-smi
查看显卡状态会发现风扇状态为ERR。查了一些资料,发现显卡风扇的转速上限默认设置为80%,所以当转速超过80%就会报错,并降低风扇转速,最终呈现出风扇转速由较低到很高的周期性变化,显卡也无法维持稳定的工作状态。
使用 coolgpus 调节风扇转速
coolgpus 是一个开源的工具,可在运行时为每块显卡启动一个临时的X Server并绑定一个虚拟的显示器,之后循环访问每块显卡,根据维度调节风扇转速。
安装方法
可以使用 pypi 进行安装
pip install coolgpus
使用用例
# 将gpu风扇转速设置为99%
sudo $(which coolgpus) --speed 99 99
# 关闭设置
sudo $(which coolgpus)
# 或者也可以设置线性控制
# 这个模式下20℃以下转速为5%, 20-55℃之间转速为30%,依次类推
sudo $(which coolgpus) --temp 20 55 80 --speed 5 30 99
如果需要将coolgpus脚本当作一个系统服务长期运行的话,如果你的服务器采用systemd管理server的话,可以在/etc/systemd/system/coolgpus.service
创建模板
[Unit]
Description=Headless GPU Fan Control
After=syslog.target
[Service]
ExecStart=/home/ajones/conda/bin/coolgpus --kill
Restart=on-failure
RestartSec=5s
ExecStop=/bin/kill -2 $MAINPID
KillMode=none
[Install]
WantedBy=multi-user.target
可以通过如下命令进行控制
sudo systemctl enable coolgpus
sudo systemctl start coolgpus