首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何减少谷歌数据流作业的初始化和终止时间?

如何减少谷歌数据流作业的初始化和终止时间?
EN

Stack Overflow用户
提问于 2017-10-12 12:59:13
回答 1查看 186关注 0票数 4

我目前正在研究POC,并主要关注ETL处理的数据流。我使用Dataflow 2.1JavaBeamAPI创建了管道,初始化只需3-4分钟,每次运行也需要1-2分钟。但是,实际转换(ParDo)所需时间不到一分钟。而且,我试着用不同的方法来运行这些作业,

  • 在本地机器上运行作业
  • 在GCP上远程运行作业
  • 通过Dataflow模板运行作业

但看起来,所有上述方法在初始化和终止过程中消耗的时间或多或少是相同的。因此,这是POC的一个瓶颈,因为我们打算每天处理数以百计的工作。

我正在寻找一种方法来共享所有作业的初始化/终止时间,以便它可以是一次活动或任何其他减少时间的方法。

提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2017-10-13 20:55:41

据我所知,没有办法可以缩短创业时间。您不应该认为这是一个瓶颈,因为每个作业的运行都是独立于最后一个作业的,所以您可以并行地运行它们,等等。如果这是一个完全消除那些时间的选择,您也可以考虑将其转换为流管道。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46710263

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档