我们有一个新的超级微型服务器AS-4124 AS TNR配备8个NVIDIA A6000。我们在GPU上进行了一些持久的测试,系统是稳定的。然而,在一些GPU空转后,系统一再崩溃。我们假设必须将GpuPowerMizerMode设置为1,以防止GPU空闲期间的崩溃(这一假设得到了互联网上其他用户报告的支持)。我们知道的唯一方法是启动X(例如,启动gdm),然后通过nvidia-settings设置相应的值(在没有X/gdm的情况下运行nvidia-settings会导致“无法插入服务器:无法连接
我正在尝试在可以通过SSH远程访问的GPU上运行tensorflow代码。我使用windows CMD来SSH,然后我得到了服务器的Linux终端。现在我想在服务器的GPU而不是CPU上运行代码,因此我安装了Tensorflow-GPU。我正在使用conda环境来运行python。/core/common_runtime/gpu/gpu_device.cc:1640] Found device 0 with properties: