问允许的故障超驱动器运行量的阈值
EN

Stack Overflow用户

提问于 2020-07-08 01:41:10

回答 1查看 109关注 0票数 1

因为“原因”，我们知道当我们使用azureml-sdk的HyperDriveStep时，我们预计会有一些HyperDrive运行失败--通常在20%左右。我们如何在不使整个HyperDriveStep (然后是所有下游步骤)失败的情况下处理这个问题?下面是管道的一个示例。

我以为会有一个HyperDriveRunConfig参数来支持这一点，但它似乎并不存在。也许这是通过continue_on_step_failure参数在管道本身上控制的？

我们正在考虑的解决方法是在train.py脚本中捕获失败的运行，并手动将primary_metric记录为零。

回答已采纳

发布于 2020-07-08 04:47:44

谢谢你的问题。

我假设HyperDriveStep是管道中的一个步骤，当HyperDriveStep失败时，您希望管道中的其余步骤继续执行，对吗？启用continue_on_step_failure，应该允许管道的其余步骤在任何单个步骤失败时继续执行。

此外，HyperDrive运行由HyperDriveConfig控制的多个子运行组成。如果HyperDrive探索的前3个子运行失败(例如，由于用户脚本错误)，系统将自动取消整个HyperDrive运行，以避免进一步浪费资源。

当HyperDriveStep失败时，您是否希望继续其他管道步骤？或者，当前3个子运行失败时，您是否希望在HyperDrive运行中继续其他子运行？

谢谢!

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62780977

复制

相似问题

问允许的故障超驱动器运行量的阈值EN