首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NVRM: RmInitAdapter失败: Xid: 79,GPU从总线上掉了下来

NVRM: RmInitAdapter失败: Xid: 79,GPU从总线上掉了下来
EN

Stack Overflow用户
提问于 2017-09-08 01:17:02
回答 1查看 10.1K关注 0票数 3

有两次,当我使用4x1080ti完成训练模型时,服务器就崩溃了。服务器为什么会崩溃?

我得到了sysylog,发现了一些关于Nvidia驱动程序或GPU的错误。

系统日志:(和nvidia-bug-report.log)

第二个

9月6日21:11:41 GPU-8-服务器-整数内核: 31429.221258 NVRM: RmInitAdapter失败!(0x30:0xffff:682) 9月6日21:11:41 gpu-8-服务器-整数内核: 31429.221337 NVRM: rm_init_adapter失败,因为设备的小号为0。 9月6日21:13:54 GPU-8-服务器-整数内核: 31562.154256 NVRM: RmInitAdapter失败!(0x30:0xffff:682) 9月6日21:13:54 gpu-8-服务器-整数内核: 31562.154306 NVRM: rm_init_adapter因设备小号1而失败。

第一个

9月6日02:48:40 GPU -8-服务器: 557998.990374 NVRM: PCI:0000:04:00: GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1 9月6日02:48:40 GPU-8-服务器-整数内核: 557998.990375 NVRM: GPU板序列号: 9月6日02:48:40 GPU-8-服务器内核: 557998.990376 NVRM: Xid (PCI:0000:04:00):79,GPU从总线上掉了下来。 9月6日02:48:40 GPU-8-服务器内核: 557998.990377 NVRM: GPU在0000:04:00.0从总线上掉下。 9月6日02:48:40 GPU-8-服务器-整数内核: 557998.990377 NVRM: GPU在板上. 9月6日02:48:40 GPU-8-服务器-整数内核: 557998.990655 NVRM:一个GPU崩溃转储已经创建.如果可能的话,请跑 9月6日02:48:40 GPU-8-服务器-整数内核: 557998.990655 NVRM: nvidia-bug-report.sh作为root收集数据之前 9月6日02:48:40 GPU-8-服务器-整数内核: 557998.990655 NVRM: NVIDIA内核模块被卸载. 9月6日02:48:41 GPU-8-服务器-整数内核: 557999.884383 NVRM: GPU在0000:04:00.0从总线上掉下。 9月6日02:48:41 GPU-8-服务器-整数内核: 557999.901942 NVRM:一个GPU崩溃转储已经创建.如果可能的话,请跑 9月6日02:48:41 GPU-8-服务器-整数内核: 557999.901942 NVRM: nvidia-bug-report.sh作为root收集数据之前 9月6日02:48:41 GPU-8-服务器-整数内核: 557999.901942 NVRM: NVIDIA内核模块被卸载. 9月6日02:48:41 GPU-8-服务器-整数内核: 558000.356948 NVRM: RmInitAdapter失败!(0x30:0xffff:682) 9月6日02:48:41 gpu-8-服务器-整数内核: 558000.444379 NVRM: rm_init_adapter失败,因为设备的小号为0 9月6日02:48:45 GPU-8-服务器-整数内核: 558004.604173 NVRM: request_irq()失败(-22) 9月6日02:48:48 GPU-8-服务器-整数内核: 558007.497475 NVRM: RmInitAdapter失败!(0x23:0x56:468) 9月6日02:48 gpu-8-服务器-整数内核: 558007.497489 NVRM: rm_init_adapter失败,因为设备的小号为0 9月6日02:48:50 GPU-8-服务器-整数内核: 558008.878985 NVRM: request_irq()失败(-22) 9月6日02:48:53 GPU-8-服务器-整数内核: 558011.735642 NVRM: RmInitAdapter失败!(0x23:0x56:468) 9月6日02:48:53 gpu-8-服务器-整数内核: 558011.735658 NVRM: rm_init_adapter失败,因为设备的小号为0。 9月6日02:48:54 GPU-8-服务器-整数内核: 558013.108772 NVRM: request_irq()失败(-22) 9月6日02:48:55 gpu-8-服务器-整数内核: 558013.757168错误:无法在0000000132081000处理内核分页请求 9月6日02:48:55 GPU-8-服务器-整数内核: 558013.757173 IP:[] kmem_cache_alloc+0x77/0x1f0 9月6日02:48:55 gpu-8-服务器-整型内核: 558013.757175 PGD 10357d8067 pd0

EN

回答 1

Stack Overflow用户

发布于 2017-11-08 12:56:33

我们有过这个问题。从我可以告诉你有一个非常类似的设置与多个GPU和一个X99主板。我们通过在引导内核参数中设置pcie_aspm=off来减少错误。我在您提供的nvidia bug报告日志中搜索"aspm“,您将注意到以下内容:

0.167842 ACPI FADT声明系统不支持PCIe ASPM,所以禁用它 0.278085 acpi PNP0A03:03: FADT表示不支持ASPM,使用BIOS配置 0.282583 acpi PNP0A08:00: FADT表示不支持ASPM,使用BIOS配置 2.795337 r8169 0000:0a:00.0:无法禁用

目前,我们的GPU服务器仍然存在一些问题,但这可能会有所帮助。

我最初是在这个线程上找到这个想法的

更新:我们仍然得到偶尔的RmInitAdapter消息,但我们不再有任何稳定性问题。为了记录在案,我们现在运行的是Nvidia的387.34驱动程序,我们有以下引导参数:

代码语言:javascript
复制
pcie_aspm=off rcutree.rcu_idle_gp_delay=1

另外,我们也有一个更新的基于X299主板的四位GPU盒,我们也有类似的问题。

相关信息:

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46107222

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档