首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我可以指定GCP人工智能平台培训工作的超时吗?

我可以指定GCP人工智能平台培训工作的超时吗?
EN

Stack Overflow用户
提问于 2020-01-01 19:11:42
回答 2查看 324关注 0票数 0

最近,我提交了一份培训工作,命令如下:

代码语言:javascript
复制
gcloud ai-platform jobs submit training foo --region us-west2 --master-image-uri us.gcr.io/bar:latest -- baz qux

(有关此命令如何工作的更多信息:https://cloud.google.com/ml-engine/docs/training-jobs)

我的代码中有一个错误,它导致作业继续运行,而不是终止。两周后,61美元,我发现了我的错误,并取消了工作。我想确保我不会再犯那种错误了。

我正在考虑在训练容器中使用timeout命令,如果过程太长(典型的运行时大约是2或3个小时),就会终止它,但是我不希望信任容器来杀死自己,我更愿意配置GCP来在外部杀死它。

有办法做到这一点吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-01-02 14:01:37

作为一种解决办法,您可以编写一个运行命令的小脚本,然后在运行取消作业命令之前睡觉。

由于AI平台培训服务中没有超时定义,我冒昧地打开了一个带有功能请求的公共问题,以记录该命令的缺失。您可以跟踪PI进度这里

票数 1
EN

Stack Overflow用户

发布于 2021-06-27 06:51:48

除了上面提到的脚本,您还可以尝试:

  • TimeOut Keras回调,或timeout= Optuna (取决于您实际使用的库)
  • Cron触发Lambda (云功能)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59555371

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档