ansys有一些问题。当我启动它时,它会抱怨一些分区。我们正在使用slurm。它会抱怨运行作业的slurm分区吗?但是RDMA听起来更像是一个硬盘分区。我有点困惑问题的原因是什么。访问slurm中的文件系统或不同的队列(分区)?以及如何修复它。有没有人以前遇到过这个bug,并且可能知道解决方案?
它在slurm集群上运行,包含一个NFS、一个NFS (ansys安装)和一个BeeGFS /work目录(用于模型等)。
cfx5remote: Rank 0:35: MPI_Init_thread: multiple pkey found in partition key table, please choose one via MPI_IB_PKEY
cfx5remote: Rank 0:35: MPI_Init_thread: pkey table:
cfx5remote: Rank 0:35: MPI_Init_thread: 0x8001
cfx5remote: Rank 0:35: MPI_Init_thread: 0x7fff
cfx5remote: Rank 0:25: MPI_Init_thread: multiple pkey found in partition key table, please choose one via MPI_IB_PKEY
cfx5remote: Rank 0:25: MPI_Init_thread: pkey table:
cfx5remote: Rank 0:35: MPI_Init_thread: 0xffff
cfx5remote: Rank 0:25: MPI_Init_thread: 0x8001
cfx5remote: Rank 0:25: MPI_Init_thread: 0x7fff
cfx5remote: Rank 0:25: MPI_Init_thread: 0xffff
cfx5remote: Rank 0:25: MPI_Init_thread: ibv_get_pkey() failed
cfx5remote: Rank 0:21: MPI_Init_thread: multiple pkey found in partition key table, please choose one via MPI_IB_PKEY
cfx5remote: Rank 0:25: MPI_Init_thread: Can't initialize RDMA device发布于 2017-12-15 16:09:42
对于tcsh shell:
setenv MPI_IB_PKEY "0xffff“
强制应用程序使用"broadcast“"VLAN”。我不确定为什么有多个分区可供选择。
对于bash shell:
导出MPI_IB_PKEY="0xffff“
发布于 2017-12-07 17:58:45
cfx5remote:排名0:25: MPI_Init_thread:分区键表中发现多个pkey,请通过MPI_IB_PKEY选择一个
cfx5remote:等级0:25: MPI_Init_thread: ibv_get_pkey()失败
->这是infiniband/rmda,很可能与您的文件系统完全无关。
https://stackoverflow.com/questions/47657552
复制相似问题