SealHuang +

为 NVIDIA GeForce 2080 Ti 显卡降温

GeForce 2080 Ti 的降温问题

最近使用一块 2080 Ti 显卡训练模型,发现风扇始终不能稳定运转,周期性地狂转一会儿,噪声很大,用nvidia-smi查看显卡状态会发现风扇状态为ERR。查了一些资料,发现显卡风扇的转速上限默认设置为80%,所以当转速超过80%就会报错,并降低风扇转速,最终呈现出风扇转速由较低到很高的周期性变化,显卡也无法维持稳定的工作状态。

使用 coolgpus 调节风扇转速

coolgpus 是一个开源的工具,可在运行时为每块显卡启动一个临时的X Server并绑定一个虚拟的显示器,之后循环访问每块显卡,根据维度调节风扇转速。

安装方法

可以使用 pypi 进行安装

pip install coolgpus

使用用例

# 将gpu风扇转速设置为99%
sudo $(which coolgpus) --speed 99 99

# 关闭设置
sudo $(which coolgpus)

# 或者也可以设置线性控制
# 这个模式下20℃以下转速为5%, 20-55℃之间转速为30%,依次类推
sudo $(which coolgpus) --temp 20 55 80 --speed 5 30 99

如果需要将coolgpus脚本当作一个系统服务长期运行的话,如果你的服务器采用systemd管理server的话,可以在/etc/systemd/system/coolgpus.service创建模板

[Unit]
Description=Headless GPU Fan Control
After=syslog.target

[Service]
ExecStart=/home/ajones/conda/bin/coolgpus --kill 
Restart=on-failure
RestartSec=5s
ExecStop=/bin/kill -2 $MAINPID
KillMode=none 

[Install]
WantedBy=multi-user.target

可以通过如下命令进行控制

sudo systemctl enable coolgpus
sudo systemctl start coolgpus

Blog

Technique

Theory