首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >一段时间稳定运行的Azure批池崩溃

一段时间稳定运行的Azure批池崩溃
EN

Stack Overflow用户
提问于 2020-03-04 09:18:24
回答 1查看 187关注 0票数 0

我遇到了以下使用Azure批处理的行为。我正在使用造船厂启动一个由500个低优先级节点组成的池,以执行400.000项任务的列表。池大小是使用自动缩放来管理的。

一开始,游泳池似乎运行得很好。节点数增加到最大容量,任务按预期完成。然而,经过一段时间(完成了相当多的任务),我开始遇到“开始任务失败”错误。然后,池迅速开始退化,直到所有节点由于同样的错误而崩溃。

这是我在其中一个崩溃节点的stdout.txt文件中遇到的错误:

代码语言:javascript
复制
Login Succeeded
2020-03-04T09:09:07UTC - INFO - Docker registry logins completed.
2020-03-04T09:09:07UTC - WARNING - No Singularity registry servers found.
2020-03-04T09:13:37,840996225+00:00 - ERROR - Cascade Docker exited with non-zero exit code: 1

这似乎是一个与拉码头形象有关的问题?尽管它以前在其他节点上没有问题。

我知道这不是很多信息,但我很难弄清楚哪些信息是相关的,哪些信息不相关。

更新

更新到船厂3.9.1后,这是stdout.txt中一个崩溃节点的输出(启动任务失败):

代码语言:javascript
复制
2020-03-05T08:23:43,784166638+00:00 - DEBUG - Pulling Docker Image: mcr.microsoft.com/azure-batch/shipyard:3.9.1-cargo (fallback: 0)
2020-03-05T08:23:58,876629647+00:00 - ERROR - Error response from daemon: Get https://mcr.microsoft.com/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
2020-03-05T08:23:58,878254953+00:00 - ERROR - No fallback registry specified, terminating
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-04 15:52:42

请看GitHub问题https://github.com/Azure/batch-shipyard/issues/340。您可能需要升级您的批处理船厂版本,并重新创建您的池。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60522646

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档