我在谷歌AI平台上做了一个训练工作,只是训练一个简单的tf.Estimator。如果还有一个评估任务在运行,有没有办法阻止整个任务完成?

发布于 2020-11-19 00:55:55
我记得有人在GCP中使用Kubeflow,当使用gcloud命令(1)提交AI平台训练任务时,需要使用'--stream-logs‘标志。否则,作业将在完成之前停止。
根据文档,
‘使用--stream-logs标志,作业将在此命令退出后继续运行,并且必须使用gcloud ai-platform作业取消取消JOB_ID)’
值得一试,看看在您的例子中,这个标志是否也可以保持作业运行,而不是过早地终止它。
在激活标志时问题不断发生的情况下,您可能希望检查作业的日志,以更好地了解此行为的根本原因。
https://stackoverflow.com/questions/64477402
复制相似问题