文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么GPU不能在多GPU服务器上进行通信？

问为什么GPU不能在多GPU服务器上进行通信？
EN

Server Fault用户

提问于 2021-11-10 00:35:03

回答 1查看 192关注 0票数 1

这是一台戴尔PowerEdge r750xa服务器，有4个Nvidia A40 GPU，用于人工智能应用。虽然GPU单独工作很好，但如果至少有2个GPU必须交换信息，包括simpleIPC和conjugateGradientMultiDeviceCG CUDA样本(第一个显示不匹配的结果，第二个只是挂起)，则多GPU培训任务或任何多GPU计算工作负载都会失败。

我在网上看到了一些讨论(1，2，3.)，声称必须关闭一些叫做IOMMU的东西。我试着设置iommu=off和intel_iommu=off Linux内核标志，但是没有帮助。我检查了BIOS设置，但是在BIOS中没有关闭IOMMU的选项。

bios

hpc

gpu

linux

dell-poweredge

回答 1

Server Fault用户

发布于 2021-11-10 00:35:03

虽然在这个BIOS风格中没有明确的"IOMMU“设置，但问题仍然是BIOS配置。

在BIOS中，转到“集成设备”，并将“内存映射I/O基础”设置从默认的“56 to”更改为“12 to”。这将解决这个问题。不需要添加任何额外的内核参数。

票数 1

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/1083083

复制

相似问题

问为什么GPU不能在多GPU服务器上进行通信？
EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么GPU不能在多GPU服务器上进行通信？EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么GPU不能在多GPU服务器上进行通信？
EN