这是一台戴尔PowerEdge r750xa服务器,有4个Nvidia A40 GPU,用于人工智能应用。虽然GPU单独工作很好,但如果至少有2个GPU必须交换信息,包括simpleIPC和conjugateGradientMultiDeviceCG CUDA样本(第一个显示不匹配的结果,第二个只是挂起),则多GPU培训任务或任何多GPU计算工作负载都会失败。
我在网上看到了一些讨论(1,2,3.),声称必须关闭一些叫做IOMMU的东西。我试着设置iommu=off和intel_iommu=off Linux内核标志,但是没有帮助。我检查了BIOS设置,但是在BIOS中没有关闭IOMMU的选项。
发布于 2021-11-10 00:35:03
虽然在这个BIOS风格中没有明确的"IOMMU“设置,但问题仍然是BIOS配置。
在BIOS中,转到“集成设备”,并将“内存映射I/O基础”设置从默认的“56 to”更改为“12 to”。这将解决这个问题。不需要添加任何额外的内核参数。
https://serverfault.com/questions/1083083
复制相似问题