首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >8 GPU机结冰

8 GPU机结冰
EN

Server Fault用户
提问于 2017-02-08 11:51:35
回答 2查看 1.8K关注 0票数 4

我们有一个SuperMicro GPU服务器,它具有:

  • 2xIntel(R) Xeon(R) CPU E5-2660 v4 @ 2.00GHz
  • 512内存
  • 超过足够的磁盘空间
  • X10DRG-O+-CPU (BIOS版本: 2.0a 当前)
  • X9DRG-O-PCIE PCI-E扩展卡
  • 8x GTX 1080

它是设置与Ubuntu16.04.1LTS,NVIDA驱动程序367.57和CUDA-8.0。当它运行时,它暂时运行良好。然而,它是完全无用的股票内核(v4.4) -系统几乎立即冻结时,做一些非平凡的事情在任何GPU。因此,我们怀疑是硬件问题,但冷却是好的,第二台几乎相同的机器(只是不同的GPU制造商)显示了完全相同的行为。

为了使它在一段时间内运行良好,您必须将内核降级为v3.14.1--信任(在此之前测试了几乎所有版本)。但仍然有随机冻结,通常没有在原木上。有时整台机器都会结冰,其他时候则是任何与GPU相关的进程。

似乎还有其他1 people 2有这个问题,但没有解决办法。

是使用这种机器的人吗?

更新:如果卡只插入在PCI扩展器的一侧,则机器似乎运行稳定(不管任何软件),这意味着所有的卡都由同一个CPU驱动。但是,另一台机器似乎运行稳定,有8张卡(现在的正常运行时间约4个月),内核3.19,在经历了上述问题的几个月后。怪诞。

1

2

EN

回答 2

Server Fault用户

发布于 2017-06-24 06:23:02

我在同一台电脑上也有同样的问题。要解决这个问题,您需要通过改变主板上的跳线JPG1来禁用车载VGA。不幸的是,您需要删除子板才能做到这一点。请注意,要重新安装子板,您可能需要施加相当大的压力,它才能再次正确地与主板连接。

票数 1
EN

Server Fault用户

发布于 2017-05-16 06:59:05

PCI总线(电源管理)有一个已知的问题,似乎由SuperMicro来解决。我们刚刚从他们那里收到了一个可闪光的BIOS+firmware更新,并且正在测试它。我不认为我可以分享更新(不确定许可),所以建议您联系SuperMicro。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/831309

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档