我们有一个SuperMicro GPU服务器,它具有:
它是设置与Ubuntu16.04.1LTS,NVIDA驱动程序367.57和CUDA-8.0。当它运行时,它暂时运行良好。然而,它是完全无用的股票内核(v4.4) -系统几乎立即冻结时,做一些非平凡的事情在任何GPU。因此,我们怀疑是硬件问题,但冷却是好的,第二台几乎相同的机器(只是不同的GPU制造商)显示了完全相同的行为。
为了使它在一段时间内运行良好,您必须将内核降级为v3.14.1--信任(在此之前测试了几乎所有版本)。但仍然有随机冻结,通常没有在原木上。有时整台机器都会结冰,其他时候则是任何与GPU相关的进程。
似乎还有其他1 people 2有这个问题,但没有解决办法。
更新:如果卡只插入在PCI扩展器的一侧,则机器似乎运行稳定(不管任何软件),这意味着所有的卡都由同一个CPU驱动。但是,另一台机器似乎运行稳定,有8张卡(现在的正常运行时间约4个月),内核3.19,在经历了上述问题的几个月后。怪诞。
发布于 2017-06-24 06:23:02
我在同一台电脑上也有同样的问题。要解决这个问题,您需要通过改变主板上的跳线JPG1来禁用车载VGA。不幸的是,您需要删除子板才能做到这一点。请注意,要重新安装子板,您可能需要施加相当大的压力,它才能再次正确地与主板连接。
发布于 2017-05-16 06:59:05
PCI总线(电源管理)有一个已知的问题,似乎由SuperMicro来解决。我们刚刚从他们那里收到了一个可闪光的BIOS+firmware更新,并且正在测试它。我不认为我可以分享更新(不确定许可),所以建议您联系SuperMicro。
https://serverfault.com/questions/831309
复制相似问题