我遇到了以下使用Azure批处理的行为。我正在使用造船厂启动一个由500个低优先级节点组成的池,以执行400.000项任务的列表。池大小是使用自动缩放来管理的。
一开始,游泳池似乎运行得很好。节点数增加到最大容量,任务按预期完成。然而,经过一段时间(完成了相当多的任务),我开始遇到“开始任务失败”错误。然后,池迅速开始退化,直到所有节点由于同样的错误而崩溃。
这是我在其中一个崩溃节点的stdout.txt文件中遇到的错误:
Login Succeeded
2020-03-04T09:09:07UTC - INFO - Docker registry logins completed.
2020-03-04T09:09:07UTC - WARNING - No Singularity registry servers found.
2020-03-04T09:13:37,840996225+00:00 - ERROR - Cascade Docker exited with non-zero exit code: 1这似乎是一个与拉码头形象有关的问题?尽管它以前在其他节点上没有问题。
我知道这不是很多信息,但我很难弄清楚哪些信息是相关的,哪些信息不相关。
更新
更新到船厂3.9.1后,这是stdout.txt中一个崩溃节点的输出(启动任务失败):
2020-03-05T08:23:43,784166638+00:00 - DEBUG - Pulling Docker Image: mcr.microsoft.com/azure-batch/shipyard:3.9.1-cargo (fallback: 0)
2020-03-05T08:23:58,876629647+00:00 - ERROR - Error response from daemon: Get https://mcr.microsoft.com/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
2020-03-05T08:23:58,878254953+00:00 - ERROR - No fallback registry specified, terminating发布于 2020-03-04 15:52:42
请看GitHub问题https://github.com/Azure/batch-shipyard/issues/340。您可能需要升级您的批处理船厂版本,并重新创建您的池。
https://stackoverflow.com/questions/60522646
复制相似问题