首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在DataFlow上使用apache SDK SDK的自定义版本?

如何在DataFlow上使用apache SDK SDK的自定义版本?
EN

Stack Overflow用户
提问于 2021-11-22 17:10:58
回答 1查看 102关注 0票数 0

Apache光束的当前版本不支持来自google spanner的类型代码11 (json),因为它使用了google-cloud-spanner的一个版本,该版本是当前版本后面的两个主要版本。因此,我更新了我自己的版本来做到这一点-还没有完全弄清楚如何在Github上做一个适当的PR或运行测试。

无论哪种方式,这都需要一段时间。我听说有一种方法可以在DataFlow上指定自定义Apache custom,但那是3年前的事了,并没有具体说明。还有可能吗?我需要什么样的文件来保存SDK - zip,tar,tar.gz?该存档中需要包含哪些文件夹?apache_beam,apache_beam-2.34.0.dist-info?只有apache_beam中的文件吗?是否只需在PipelineOptions的sdk-location="gs://bucket“中设置该选项?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2021-11-23 17:48:46

在构建容器之后,您需要确保使用的是runner V2,并且还需要像这样设置sdk_container_image标志(其他标志与wordcount相关,可能与您的流水线无关):

代码语言:javascript
复制
python -m apache_beam.examples.wordcount \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE \
  --project=PROJECT_ID \
  --region=REGION \
  --temp_location=TEMP_LOCATION \
  --runner=DataflowRunner \
  --disk_size_gb=DISK_SIZE_GB \
  --experiments=use_runner_v2 \
  --sdk_container_image=$IMAGE_URI

在Dataflow上运行流水线之前,您应该确保容器通过在本地运行一个小作业来工作,如下所示:

代码语言:javascript
复制
python path/to/my/pipeline.py \
  --runner=PortableRunner \
  --job_endpoint=embed \
  --environment_type=DOCKER \
  --environment_config=IMAGE_URI \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE

有关更多详细信息,请查看https://cloud.google.com/dataflow/docs/guides/using-custom-containers

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70069771

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档