当我访问Kubeflow端点以使用克隆的TFX上传和运行管道时,该进程在生成以下消息的第一步开始挂起:
“此步骤处于挂起状态,并显示以下消息: ImagePullBackOff: Back-off拉取图像"tensorflow/tfx:0.14.0dev",该图像与创建的管道yaml文件中使用的图像相同。
我的总体目标是为tfrecords文件构建一个ExampleGen,就像指南here中所描述的那样。pip中最新的tfx版本是0.13和does not yet include the necessary functions。出于这个原因,我每晚安装tf-并克隆/构建tfx (dev-version0.14)。这样做,并安装一些额外的模块,例如tensorflow_data_validation,我现在可以使用tfx组件创建我的管道,并包含一个用于tfrecords文件的ExampleGen。我终于用KubeflowRunner构建了管道。然而,这产生了上面所述的错误。
我现在想知道解决这个问题的合适方法。我猜一种方法是自己用指定的版本构建一个镜像,但也许还有一种更实用的方法?
发布于 2019-07-24 12:28:27
到目前为止,TFX还没有每晚的映像构建。目前,它默认使用带有构建管道所使用的库版本的标记的图像,因此标记为0.14dev0。这是HEAD的当前版本,请查看此处:https://github.com/tensorflow/tfx/blob/a1f43af5e66f9548ae73eb64813509445843eb53/tfx/version.py#L17
您可以构建自己的映像并将其推送到某个位置,例如gcr.io/your-gcp-project/your-image-name:tag,然后通过自定义管道的tfx_image参数指定管道使用此映像:https://github.com/tensorflow/tfx/blob/74f9b6ab26c51ebbfb5d17826c5d5288a67dcf85/tfx/orchestration/kubeflow/base_component.py#L54
https://stackoverflow.com/questions/57136589
复制相似问题