首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OpenMPI容错

OpenMPI容错
EN

Stack Overflow用户
提问于 2013-10-27 08:07:31
回答 1查看 516关注 0票数 0

我的任务是在OpenMPI应用程序中实现简单的容错。我们面临的问题是,尽管将MPI错误处理设置为MPI_ERRORS_RETURN,但当我们的一个节点从集群中拔出时,在长时间挂起之后的下一个MPI_调用中会出现以下错误:

代码语言:javascript
复制
[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110)

我对此的理解是,当一个节点从使用OpenMPI的网络中掉落时,不可能在所有其他节点上继续处理。有人能为我确认这一点,或者为我指出防止btl_tcp_endpoint错误的方向吗?

我们使用的是OpenMPI版本1.6.5。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-27 15:04:19

在Open中,MPI_ERRORS_RETURN代码路径没有得到很好的测试(可能也不是很好的实现)。他们根本就不是首要任务,所以我们从来没有在这方面做过很多工作。

抱歉的。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19615931

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档