首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用PyTorch在云TPU上训练FairSeq RoBERTa时,RPC失败,错误状态=“不可用: Socket closed”

使用PyTorch在云TPU上训练FairSeq RoBERTa时,RPC失败,错误状态=“不可用: Socket closed”
EN

Stack Overflow用户
提问于 2020-09-09 17:09:29
回答 1查看 404关注 0票数 1

我按照教程"Pre-training FairSeq RoBERTa on Cloud TPU using Pytorch“设置了一个可抢占(v2-8) TPU环境,并训练了我的RoBERTa模型。按照文档的说明,PyTorch环境基于torch-xla-1.6。但是,它不会像往常一样在GPU中输出任何训练日志,并且会在2-3天内(间隔12小时)抛出两次RPC故障警告(参见下文-此处删除网络端点)。

我的训练步数是161,529步。根据文档,根据我的配置,v2-8将在5个时期花费80小时。然而,我的工作似乎悬而未决。

有什么建议吗?

代码语言:javascript
复制
 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC
EN

回答 1

Stack Overflow用户

发布于 2020-11-09 08:22:26

在这种情况下,听起来你的TPU可能已经被抢占了。请尝试使用不可抢占的TPU。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63808385

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档