首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >TensorFlow扩展的Kubeflow多个工人

TensorFlow扩展的Kubeflow多个工人
EN

Stack Overflow用户
提问于 2021-01-22 14:06:36
回答 1查看 110关注 0票数 0

我和TFX在Kubeflow DAG Runner上有个问题。问题是每次运行我只能启动一个吊舱。除了Apache参数之外,我没有看到任何关于“工人”的配置,这是没有帮助的。

在一个pod上运行CSV负载会导致OOMKilled错误,因为文件的容量超过了5GB。我试着将文件分割成100 in的部分,但这也没有帮助。

所以我的问题是:如何在多个“工人”舱上运行一个TFX作业/阶段?

下面是我一直使用的代码:

代码语言:javascript
复制
examples = external_input(data_root)
example_gen = CsvExampleGen(input=examples)
statistics_gen = StatisticsGen(examples=example_gen.outputs['examples'])

dsl_pipeline = pipeline.Pipeline(
  pipeline_name=pipeline_name,
  pipeline_root=pipeline_root,
  components=[
      example_gen, statistics_gen
  ],
  enable_cache=True,
  beam_pipeline_args=['--num_workers=%d' % 5]
)


if __name__ == '__main__':
    tfx_image = 'custom-aws-imgage:tfx-0.26.0'
    config = kubeflow_dag_runner.KubeflowDagRunnerConfig(
        kubeflow_metadata_config=kubeflow_dag_runner.get_default_kubeflow_metadata_config(),
        tfx_image=tfx_image)
    kfp_runner = kubeflow_dag_runner.KubeflowDagRunner(config=config)
    # KubeflowDagRunner compiles the DSL pipeline object into KFP pipeline package.
    # By default it is named <pipeline_name>.tar.gz
    kfp_runner.run(dsl_pipeline)

环境:

issue)

  • Kubernetes:

  • Docker映像: tensorflow/tfx:0.26.0,安装了boto3 (aws相关的

  • EKS latest

  • Kubeflow: 1.0.4
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-28 08:50:32

现在看来,这是不可能的。请参阅:https://github.com/kubeflow/kubeflow/issues/1583

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65846689

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档