文章/答案/技术大牛

发布

社区首页 >问答首页 >使用PyTorch在云TPU上训练FairSeq RoBERTa时，RPC失败，错误状态=“不可用: Socket closed”

问使用PyTorch在云TPU上训练FairSeq RoBERTa时，RPC失败，错误状态=“不可用: Socket closed”
EN

Stack Overflow用户

提问于 2020-09-09 17:09:29

回答 1查看 404关注 0票数 1

我按照教程"Pre-training FairSeq RoBERTa on Cloud TPU using Pytorch“设置了一个可抢占(v2-8) TPU环境，并训练了我的RoBERTa模型。按照文档的说明，PyTorch环境基于torch-xla-1.6。但是，它不会像往常一样在GPU中输出任何训练日志，并且会在2-3天内(间隔12小时)抛出两次RPC故障警告(参见下文-此处删除网络端点)。

我的训练步数是161,529步。根据文档，根据我的配置，v2-8将在5个时期花费80小时。然而，我的工作似乎悬而未决。

有什么建议吗？

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC

fairseq

roberta-language-model

pytorch

tpu

回答 1

Stack Overflow用户

发布于 2020-11-09 08:22:26

在这种情况下，听起来你的TPU可能已经被抢占了。请尝试使用不可抢占的TPU。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63808385

复制

相似问题

问使用PyTorch在云TPU上训练FairSeq RoBERTa时，RPC失败，错误状态=“不可用: Socket closed”
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PyTorch在云TPU上训练FairSeq RoBERTa时，RPC失败，错误状态=“不可用: Socket closed”EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PyTorch在云TPU上训练FairSeq RoBERTa时，RPC失败，错误状态=“不可用: Socket closed”
EN