我想请你解释一下什么是"InfiniBand-Stacks“。这些最近在我们的机器上被改变了,我开始遇到MPI通讯故障。我需要一些信息,以了解这可能会如何影响我的平行工作的稳定性。
我收到的实际错误消息是:
进程未能创建队列对。这通常意味着设备没有队列对(连接太多),或者没有足够的资源分配队列对(内存不足)。如果没有足够的内存可用,或者没有更多的物理内存可以在设备中注册,后者就可能发生。 端点应答启动连接中的connect/btl_openib_connect_oob.c:867:rml_recv_cb错误
发布于 2014-06-19 14:26:18
通常,当某人在谈论某种与软件有关的“堆栈”时,它们是指控制特定硬件的驱动程序/库/等等。例如,网络“堆栈”可能是指应用程序和物理网络接口卡(NIC)之间的所有网络软件层。这可能就是你在这件事上的意思。
当然,还有另一种与内存分配有关的软件栈,但这不是问题所在。
无论如何,如果您没有更改应用程序中的任何内容(包括运行它的环境),并且您的系统管理员最近更新了InfiniBand驱动程序,那么Open和您的InfiniBand库之间可能存在某种bug。这种情况通常不是这样的,但您可能会通过直接询问Open人员来了解情况。他们中有几个在这里闲逛,但在大多数情况下,您需要通过电子邮件users [at] open-mpi [dot] org与他们直接联系。
发布于 2014-07-14 22:44:12
该消息中的"openib“表明,是您的OpenFabrics OFED发生了变化,并可能导致问题:https://www.openfabrics.org/index.php。看看您是否可以更改它或隔离软件堆栈的其他部分,如OpenMPI版本和应用程序代码。
另外,如果您正在使用IMPI,请与Intel联系以获得支持。OpenMPI的推荐是一个很好的建议,仅仅是基于用户的数量,但是他们对英特尔的产品无能为力。
https://stackoverflow.com/questions/24295952
复制相似问题