我按照教程"Pre-training FairSeq RoBERTa on Cloud TPU using Pytorch“设置了一个可抢占(v2-8) TPU环境,并训练了我的RoBERTa模型。按照文档的说明,PyTorch环境基于torch-xla-1.6。但是,它不会像往常一样在GPU中输出任何训练日志,并且会在2-3天内(间隔12小时)抛出两次RPC故障警告(参见下文-此处删除网络端点)。
我的训练步数是161,529步。根据文档,根据我的配置,v2-8将在5个时期花费80小时。然而,我的工作似乎悬而未决。
有什么建议吗?
W 4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC发布于 2020-11-09 08:22:26
在这种情况下,听起来你的TPU可能已经被抢占了。请尝试使用不可抢占的TPU。
https://stackoverflow.com/questions/63808385
复制相似问题