首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache-Beam将序列号添加到PCollection

Apache-Beam将序列号添加到PCollection
EN

Stack Overflow用户
提问于 2017-12-03 17:43:32
回答 0查看 1.5K关注 0票数 1

我正在尝试构建一个ETL来加载维度表。我使用的是Apache Bea,Python和DataFlow,还有BigQuery。

我需要为pcollection的每个元素分配一个序列号,以便将其加载到BigQuery中,但我找不到任何方法来做到这一点。

我认为我需要DataFlow来进行前面的聚合和连接,以获得添加序列号的最终pcollection,但此时我需要停止并行处理,并将pcollection转换为一个列表(就像使用.collect()时在Spark中一样),然后执行一个简单的循环来分配序列号。是对的吗?

这是我编写的管道:

代码语言:javascript
复制
p | ReadFromAvro(known_args.input) | beam.Map(adapt) | beam.GroupByKey() | beam.Map(adaptGroupBy) 

我读到没有办法从pcollection中获取列表:How to get a list of elements out of a PCollection in Google Dataflow and use it in the pipeline to loop Write Transforms?

我怎样才能做到这一点?有什么帮助吗?

EN

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47617158

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档