首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google Dataflow可以生成拼图文件吗

Google Dataflow可以生成拼图文件吗
EN

Stack Overflow用户
提问于 2015-11-24 21:54:20
回答 2查看 643关注 0票数 2

Google Dataflow可以生成Parquet文件作为ETL转换的输出吗?

Input -> Dataflow ->拼图文件

EN

回答 2

Stack Overflow用户

发布于 2019-09-19 09:26:20

自2019年2月在2.10中引入parquetio以来,Cloud Dataflow一直支持编写拼图。从docs

代码语言:javascript
复制
with beam.Pipeline() as p:
  records = p | 'Read' >> beam.Create(
    [{'name': 'foo', 'age': 10}, {'name': 'bar', 'age': 20}]
  )
  _ = records | 'Write' >> beam.io.WriteToParquet(filename,
  pyarrow.schema(
      [('name', pyarrow.binary()), ('age', pyarrow.int64())]
  )
)
票数 4
EN

Stack Overflow用户

发布于 2015-11-25 13:56:23

Cloud Dataflow没有内置的生成拼图文件的方式,但基于Parquet API的快速浏览,实现custom file-based Dataflow sink应该相对容易(请参阅"FileBasedSink“)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33895482

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档