Apache光束的当前版本不支持来自google spanner的类型代码11 (json),因为它使用了google-cloud-spanner的一个版本,该版本是当前版本后面的两个主要版本。因此,我更新了我自己的版本来做到这一点-还没有完全弄清楚如何在Github上做一个适当的PR或运行测试。
无论哪种方式,这都需要一段时间。我听说有一种方法可以在DataFlow上指定自定义Apache custom,但那是3年前的事了,并没有具体说明。还有可能吗?我需要什么样的文件来保存SDK - zip,tar,tar.gz?该存档中需要包含哪些文件夹?apache_beam,apache_beam-2.34.0.dist-info?只有apache_beam中的文件吗?是否只需在PipelineOptions的sdk-location="gs://bucket“中设置该选项?
谢谢。
发布于 2021-11-23 17:48:46
在构建容器之后,您需要确保使用的是runner V2,并且还需要像这样设置sdk_container_image标志(其他标志与wordcount相关,可能与您的流水线无关):
python -m apache_beam.examples.wordcount \
--input=INPUT_FILE \
--output=OUTPUT_FILE \
--project=PROJECT_ID \
--region=REGION \
--temp_location=TEMP_LOCATION \
--runner=DataflowRunner \
--disk_size_gb=DISK_SIZE_GB \
--experiments=use_runner_v2 \
--sdk_container_image=$IMAGE_URI在Dataflow上运行流水线之前,您应该确保容器通过在本地运行一个小作业来工作,如下所示:
python path/to/my/pipeline.py \
--runner=PortableRunner \
--job_endpoint=embed \
--environment_type=DOCKER \
--environment_config=IMAGE_URI \
--input=INPUT_FILE \
--output=OUTPUT_FILE有关更多详细信息,请查看https://cloud.google.com/dataflow/docs/guides/using-custom-containers。
https://stackoverflow.com/questions/70069771
复制相似问题