首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么GPU不能在多GPU服务器上进行通信?

为什么GPU不能在多GPU服务器上进行通信?
EN

Server Fault用户
提问于 2021-11-10 00:35:03
回答 1查看 192关注 0票数 1

这是一台戴尔PowerEdge r750xa服务器,有4个Nvidia A40 GPU,用于人工智能应用。虽然GPU单独工作很好,但如果至少有2个GPU必须交换信息,包括simpleIPCconjugateGradientMultiDeviceCG CUDA样本(第一个显示不匹配的结果,第二个只是挂起),则多GPU培训任务或任何多GPU计算工作负载都会失败。

我在网上看到了一些讨论(123.),声称必须关闭一些叫做IOMMU的东西。我试着设置iommu=offintel_iommu=off Linux内核标志,但是没有帮助。我检查了BIOS设置,但是在BIOS中没有关闭IOMMU的选项。

EN

回答 1

Server Fault用户

发布于 2021-11-10 00:35:03

虽然在这个BIOS风格中没有明确的"IOMMU“设置,但问题仍然是BIOS配置。

在BIOS中,转到“集成设备”,并将“内存映射I/O基础”设置从默认的“56 to”更改为“12 to”。这将解决这个问题。不需要添加任何额外的内核参数。

票数 1
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/1083083

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档