我的任务是在OpenMPI应用程序中实现简单的容错。我们面临的问题是,尽管将MPI错误处理设置为MPI_ERRORS_RETURN,但当我们的一个节点从集群中拔出时,在长时间挂起之后的下一个MPI_调用中会出现以下错误:
[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110)我对此的理解是,当一个节点从使用OpenMPI的网络中掉落时,不可能在所有其他节点上继续处理。有人能为我确认这一点,或者为我指出防止btl_tcp_endpoint错误的方向吗?
我们使用的是OpenMPI版本1.6.5。
发布于 2013-10-27 15:04:19
在Open中,MPI_ERRORS_RETURN代码路径没有得到很好的测试(可能也不是很好的实现)。他们根本就不是首要任务,所以我们从来没有在这方面做过很多工作。
抱歉的。
https://stackoverflow.com/questions/19615931
复制相似问题