最近,我提交了一份培训工作,命令如下:
gcloud ai-platform jobs submit training foo --region us-west2 --master-image-uri us.gcr.io/bar:latest -- baz qux(有关此命令如何工作的更多信息:https://cloud.google.com/ml-engine/docs/training-jobs)
我的代码中有一个错误,它导致作业继续运行,而不是终止。两周后,61美元,我发现了我的错误,并取消了工作。我想确保我不会再犯那种错误了。
我正在考虑在训练容器中使用timeout命令,如果过程太长(典型的运行时大约是2或3个小时),就会终止它,但是我不希望信任容器来杀死自己,我更愿意配置GCP来在外部杀死它。
有办法做到这一点吗?
https://stackoverflow.com/questions/59555371
复制相似问题