Google Dataflow可以生成Parquet文件作为ETL转换的输出吗?
Input -> Dataflow ->拼图文件
发布于 2019-09-19 09:26:20
自2019年2月在2.10中引入parquetio以来,Cloud Dataflow一直支持编写拼图。从docs
with beam.Pipeline() as p:
records = p | 'Read' >> beam.Create(
[{'name': 'foo', 'age': 10}, {'name': 'bar', 'age': 20}]
)
_ = records | 'Write' >> beam.io.WriteToParquet(filename,
pyarrow.schema(
[('name', pyarrow.binary()), ('age', pyarrow.int64())]
)
)发布于 2015-11-25 13:56:23
Cloud Dataflow没有内置的生成拼图文件的方式,但基于Parquet API的快速浏览,实现custom file-based Dataflow sink应该相对容易(请参阅"FileBasedSink“)。
https://stackoverflow.com/questions/33895482
复制相似问题