我试图在一个具有multilocale网络(40 Gbps,model: MT26428)的集群上运行一个多语言环境的教堂代码。
我跟踪了教堂和GASNet的文档,并设置了
export CHPL_COMM_SUBSTRATE=ibv
export CHPL_LAUNCHER=gasnetrun_ibv
export GASNET_IBV_SPAWNER=mpi
而不是使用CHPL_COMM_SUBSTRATE=mxm,一旦mxm被弃用。
问题是我可以用ibv基板建造教堂。但是,我不能在多个区域上运行。我收到了大量超时错误。
首先,我认为问题在于PKEY。因此,我将"--mca btl_openib_pkey "0x8100""添加到MPIRUN_CMD中。但是没有成功。
我还尝试使用不推荐的mxm配置:
CHPL_LAUNCHER=gasnetrun_mxm
export CHPL_LAUNCHER=gasnetrun_ibv
export GASNET_MXM_SPAWNER=mpi
然而,我不能用这样的结构建造教堂。这是错误消息:
"User requested --enable-mxm, but I don't know how to build mxm programs for your system."
顺便说一句,在MPI、UDP和Infiniband之上使用GASNET,没有分区键,工作得很好。
有谁知道如何在带有MXM Infiniband网络和分区密钥(PKEY)的集群上使用教堂?
诚挚的问候,
蒂亚戈·卡内罗。
发布于 2018-12-11 05:15:37
蒂亚戈
作为GASNet的IBV-导管(libib谓词的支持)的作者和维护者,我可以告诉您,我们从未支持过非默认的PKey。消息*** FATAL ERROR: failed to connect (snd) status=12与错误PKey的使用是一致的。
基于您在这里的问题,我尝试为用户指定的PKey提供支持。您可以在Bitbucket的GASNet git存储库中找到作为拉请求的原型:https://bitbucket.org/berkeleylab/gasnet/pull-requests/248 (或只获取一个原始修补程序的https://bitbucket.org/PHHargrove/gasnet-public/commits/ibv-pkey/raw )。您应该能够在教堂源的third-party/gasnet/gasnet-src目录中应用该PR中的提交。我没有一个分区的IB网络来测试。所以,如果你能证实这解决了你的问题,你就帮了我的忙。
关于User requested --enable-mxm, but I don't know how to build mxm programs for your system,我怀疑GASNet的配置探测无法找到必要的头或库。故障的详细信息应该在third-party/gasnet/build下面的一个third-party/gasnet/build文件中。如果您的mxm头和库安装在/opt/mellanox/mxm以外的位置,那么您可以在构建教堂时设置环境变量MXM_HOME,以通知GASNet的配置脚本实际位置。但是,我不知道libmxm中有任何PKey支持。所以这可能是个死胡同。
-Paul
https://stackoverflow.com/questions/53678908
复制相似问题