首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >MPI找不到Infiniband接口点对点

MPI找不到Infiniband接口点对点
EN

Server Fault用户
提问于 2019-07-30 21:08:52
回答 1查看 1.2K关注 0票数 0

我想我有个Infiniband设置问题。我在建立Infiniband或网络方面不是很有经验。如果我试图强迫MPICH使用IB,我会得到错误:

代码语言:javascript
复制
[Bryan@node1 shared]$ ./mpich-3.3.1/bin/mpiexec -hosts=node1,node2 -iface=ib0 -n 4 ./test
[mpiexec@node1] HYDU_sock_get_iface_ip (../../../../mpich-3.3.1/src/pm/hydra/utils/sock/sock.c:496): unable to find interface ib0
[mpiexec@node1] HYDU_sock_create_and_listen_portstr (../../../../mpich-3.3.1/src/pm/hydra/utils/sock/sock.c:550): unable to get network interface IP
[mpiexec@node1] HYD_pmci_launch_procs (../../../../mpich-3.3.1/src/pm/hydra/pm/pmiserv/pmiserv_pmci.c:114): unable to create PMI port
[mpiexec@node1] main (../../../../mpich-3.3.1/src/pm/hydra/ui/mpich/mpiexec.c:332): process manager returned error launching processes

OpenMPI也有类似的问题。我已经试了好几天来解决这个问题了。可能是我错过的一些简单的东西。

更多背景: 1.我将MellanoxConnectX-3MCX354A-QCBT安装在两台机器上: node1和node2。将端口1直接连接到端口1。没有开关。没有端口2连接。2.每台机器运行CentOS7.3。设置无密码ssh。4.安装了Mellanox驱动器。5.将MPICH安装在共享文件夹中。6.我用sudo mst启动在两台机器上启动Mellanox驱动程序。7.我开始在node1上开放。它进入主状态。

检查连接,看起来很好:

代码语言:javascript
复制
[Bryan@node1 shared]$ sudo ibnodes
Ca      : 0x0002c90300ee7620 ports 2 "node2 HCA-1"
Ca      : 0x0002c90300ee69e0 ports 2 "node1 HCA-1"

我还使用ibping来测试连接。一切似乎都很好。

我在不强制IB的情况下运行一个测试MPI程序,工作正常:

代码语言:javascript
复制
[Bryan@node1 shared]$ ./mpich-3.3.1/bin/mpicc -std=c11 MPI_Test.c -o test
[Bryan@node1 shared]$ ./mpich-3.3.1/bin/mpiexec -hosts=node1,node2 -n 4 ./test
Rank 0: Hostname node1
Rank 2: Hostname node1
Rank 1: Hostname node2
Rank 3: Hostname node2

nmcli显示断开连接。我以为MPI不需要IB的IP地址,但我还是尝试了建立一个连接:

代码语言:javascript
复制
[Bryan@node1 shared]$ sudo nmcli con add con-name ib0 ifname ib0 type infiniband ip4 10.0.0.1
[sudo] password for Bryan:
Connection 'ib0' (09669a93-98b3-4fcb-9fed-ea65fff65e24) successfully added.
[Bryan@node1 shared]$ nmcli device status
DEVICE  TYPE        STATE        CONNECTION
enp4s0  ethernet    connected    enp4s0
ib0     infiniband  connected    ib0
ib1     infiniband  unavailable  --
[Bryan@node1 shared]$ nmcli device show ib0
GENERAL.DEVICE:                         ib0
GENERAL.TYPE:                           infiniband
GENERAL.HWADDR:                         A0:00:02:20:FE:80:00:00:00:00:00:00:00:02:C9:03:00:EE:69:E1
GENERAL.MTU:                            2044
GENERAL.STATE:                          100 (connected)
GENERAL.CONNECTION:                     ib0
GENERAL.CON-PATH:                       /org/freedesktop/NetworkManager/ActiveConnection/54
IP4.ADDRESS[1]:                         10.0.0.1/32
IP4.GATEWAY:                            --
IP4.ROUTE[1]:                           dst = 10.0.0.1/32, nh = 0.0.0.0, mt = 150
IP6.ADDRESS[1]:                         fe80::7a74:c87f:2d49:2cfc/64
IP6.GATEWAY:                            --
IP6.ROUTE[1]:                           dst = fe80::/64, nh = ::, mt = 150
IP6.ROUTE[2]:                           dst = ff00::/8, nh = ::, mt = 256, table=255

除了使用10.0.0.2作为IP之外,我对node2也做了同样的操作。

如果我试图在设置IP后再次运行强制IB,它只会挂起直到我ctrl+c。我错过了什么?

EN

回答 1

Server Fault用户

发布于 2019-10-26 01:48:48

按照Thomas的建议,在添加--with=CH3: not :mxm之后,配置过程告诉我无法找到Mellanox库。在配置选项中添加--with-mxm=/opt/mellanox/mxm解决了这个问题。

自述文件比来自mpich.org的mpich-3.3.1-installguide.pdf有更多的详细信息。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/977341

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档