首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么Google Pipeline VM实例无限期挂起?

为什么Google Pipeline VM实例无限期挂起?
EN

Stack Overflow用户
提问于 2017-02-11 09:13:33
回答 2查看 274关注 0票数 0

我正在使用Dockerflow在Google Cloud平台上通过Google Pipelines运行并行任务。我开始了一个单步任务,并行运行1389个虚拟机,发现其中233个虚拟机显然什么都不做,并且无限期地挂起。

我对串行控制台的输出进行了抽查,反复看到虚拟机运行时出现“获取控制器配置失败”的错误。

当我尝试登录到虚拟机时,我收到错误:“连接失败。我们无法连接到端口22上的虚拟机”。

我想知道为什么我的VM实例挂起,以及是否可以做些什么来避免遇到这些问题。

我在下面包含了串行控制台输出的一个片段

代码语言:javascript
复制
startupscript: +++ readlink -f /usr/share/google-genomics/startup.sh
startupscript: ++ dirname /usr/share/google-genomics/startup.sh
startupscript: + cd /usr/share/google-genomics
startupscript: + ./controller --operation_id <id> --validation_token <token> --base_path https://genomics.googleapis.com
create controller[2905]: Getting controller config
create controller[2905]: Getting controller config failed, will retry: Get <link>: Get <service_account_token_link>: net/http: timeout awaiting response headers
create controller[2905]: Getting controller config failed, will retry: Get <link>: dial tcp 74.125.26.95:443: i/o timeout
collectd[2342]: write_gcm: Asking metadata server for auth token
collectd[2342]: write_gcm: curl_easy_perform() failed: Couldn't connect to server
collectd[2342]: write_gcm: Error -1 from wg_curl_get_or_post
collectd[2342]: write_gcm: wg_transmit_unique_segment failed.
collectd[2342]: write_gcm: wg_transmit_unique_segments failed. Flushing.
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-02-22 05:20:12

在us-east1-b中有一个临时的网络问题。上述3个虚拟机都在us-east1-b中。这些次要事件不会出现在https://status.cloud.google.com/

成功运行的串行控制台输出如下所示:

A Feb 21 19:05:06 ggp-5629907348021283130启动脚本:+./ https://autopush-genomics.sandbox.googleapis.com --operation_id --validation_token --base_path controller2689 A Feb 21 19:05:06 ggp-5629907348021283130创建controller2689:获取控制器配置A Feb 21 19:05:36 ggp-5629907348021283130创建controller2689:获取控制器配置失败,将重试: Get https://genomics.googleapis.com/v1alpha2/pipelines:getControllerConfig?alt=json&operationId=&validationToken=:拨号tcp 173.194.212.81:443: i/o超时A Feb 21 19:05:43 ggp-5629907348021283130 controller2689:切换到状态:拉取镜像A Feb 21 19:05:43 ggp-5629907348021283130 controller2689:调用SetOperationStatus(拉取镜像)A Feb 21 19:05:44 ggp-5629907348021283130 controller2689: SetOperationStatus(拉取镜像)成功

“获取控制器配置失败,将重试”是正常的。重试成功。“SetOperationStatus(拉取镜像)成功”表示联网正常。

理论上,您可以向Pipelines提交任意数量的作业,并且API将负责排队。

如果这些临时的网络问题变得普遍,我们可能会考虑更改管道API,以某种方式检测并重试。

票数 1
EN

Stack Overflow用户

发布于 2017-02-16 04:13:18

可能是暂时的网络问题。您能给我一些失败的操作ids (或失败的VM名称)吗?

从那以后你有没有再试过;你能重现这个问题吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42171101

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档