文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在DataFlow上使用apache SDK SDK的自定义版本？

问如何在DataFlow上使用apache SDK SDK的自定义版本？
EN

Stack Overflow用户

提问于 2021-11-22 17:10:58

回答 1查看 102关注 0票数 0

Apache光束的当前版本不支持来自google spanner的类型代码11 (json)，因为它使用了google-cloud-spanner的一个版本，该版本是当前版本后面的两个主要版本。因此，我更新了我自己的版本来做到这一点-还没有完全弄清楚如何在Github上做一个适当的PR或运行测试。

无论哪种方式，这都需要一段时间。我听说有一种方法可以在DataFlow上指定自定义Apache custom，但那是3年前的事了，并没有具体说明。还有可能吗？我需要什么样的文件来保存SDK - zip，tar，tar.gz？该存档中需要包含哪些文件夹？apache_beam，apache_beam-2.34.0.dist-info？只有apache_beam中的文件吗？是否只需在PipelineOptions的sdk-location="gs://bucket“中设置该选项？

谢谢。

google-cloud-dataflow

apache-beam

google-cloud-spanner

回答 1

Stack Overflow用户

发布于 2021-11-23 17:48:46

在构建容器之后，您需要确保使用的是runner V2，并且还需要像这样设置sdk_container_image标志(其他标志与wordcount相关，可能与您的流水线无关)：

python -m apache_beam.examples.wordcount \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE \
  --project=PROJECT_ID \
  --region=REGION \
  --temp_location=TEMP_LOCATION \
  --runner=DataflowRunner \
  --disk_size_gb=DISK_SIZE_GB \
  --experiments=use_runner_v2 \
  --sdk_container_image=$IMAGE_URI

在Dataflow上运行流水线之前，您应该确保容器通过在本地运行一个小作业来工作，如下所示：

python path/to/my/pipeline.py \
  --runner=PortableRunner \
  --job_endpoint=embed \
  --environment_type=DOCKER \
  --environment_config=IMAGE_URI \
  --input=INPUT_FILE \
  --output=OUTPUT_FILE

有关更多详细信息，请查看https://cloud.google.com/dataflow/docs/guides/using-custom-containers。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70069771

复制

相似问题

问如何在DataFlow上使用apache SDK SDK的自定义版本？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在DataFlow上使用apache SDK SDK的自定义版本？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在DataFlow上使用apache SDK SDK的自定义版本？
EN