我们有一个新的超级微型服务器AS-4124 AS TNR配备8个NVIDIA A6000。操作系统为Ubuntu 20.04.2,NVIDIA驱动程序版本为460.73.01 (没有使用新驱动程序),CUDA版本为11.2。
我们在GPU上进行了一些持久的测试,系统是稳定的。然而,在一些GPU空转后,系统一再崩溃。
我们假设必须将GpuPowerMizerMode设置为1,以防止GPU空闲期间的崩溃(这一假设得到了互联网上其他用户报告的支持)。
我们知道的唯一方法是启动X(例如,启动gdm),然后通过nvidia-settings设置相应的值(在没有X/gdm的情况下运行nvidia-settings会导致“无法插入服务器:无法连接:连接被拒绝”)。但是当停止X/gdm时,GpuPowerMizerMode值会自动重置为2。不幸的是,保持X/gdm的运行并不是一种选择,因为这也会导致系统不稳定。
因此,我们的问题似乎是:
GpuPowerMizerMode != 1可能导致系统冻结。GpuPowerMizerMode只能通过连接到正在运行的X/dm(?)的nvidia-settings来设置。为了持久地将值设置为1X/dm(?)得继续跑。我们的假设正确吗?/其他人是否也经历了这些具体的问题?
如何解决GPU空转过程中的冻结问题?
发布于 2021-07-14 11:43:59
不应该有必要启动GUI会话(甚至安装了一个!)要更改这样的设置,nvidia-settings应该可以在框架缓冲区控制台中正常工作,甚至在启动时运行的脚本中也是如此。
检查以确保:
# nvidia-settings -q GpuPowerMizerMode
Attribute 'GPUPowerMizerMode' (blacktemple:1[gpu:0]): 1.
Valid values for 'GPUPowerMizerMode' are: 0, 1 and 2.
'GPUPowerMizerMode' can use the following target types: GPU.对于8个GPU,只需编写一个简单的脚本,如下所示:
for n in $(seq 0 7); do
nvidia-settings -a "[gpu:$n]/GpuPowerMizerMode=1"
done并在启动时以您认为方便的方式运行它。
我不能说您的崩溃是否是使用GpuPowerMizerMode!=1运行的。如果是这样的话,那么您可能有某种缺陷的硬件,您应该跟踪和替换。
https://serverfault.com/questions/1069549
复制相似问题