我目前正在研究POC,并主要关注ETL处理的数据流。我使用Dataflow 2.1JavaBeamAPI创建了管道,初始化只需3-4分钟,每次运行也需要1-2分钟。但是,实际转换(ParDo)所需时间不到一分钟。而且,我试着用不同的方法来运行这些作业,
但看起来,所有上述方法在初始化和终止过程中消耗的时间或多或少是相同的。因此,这是POC的一个瓶颈,因为我们打算每天处理数以百计的工作。
我正在寻找一种方法来共享所有作业的初始化/终止时间,以便它可以是一次活动或任何其他减少时间的方法。
提前感谢!
发布于 2017-10-13 20:55:41
据我所知,没有办法可以缩短创业时间。您不应该认为这是一个瓶颈,因为每个作业的运行都是独立于最后一个作业的,所以您可以并行地运行它们,等等。如果这是一个完全消除那些时间的选择,您也可以考虑将其转换为流管道。
https://stackoverflow.com/questions/46710263
复制相似问题