阿帕奇梁支持多个运行程序后端,包括Apache和Flink。我很熟悉Spark/Flink,我正试图看到Beam批量处理的利弊。
从光束字数算例的角度来看,它觉得它非常类似于本机Spark/Flink的等价物,可能有一个稍微冗长一些的语法。
我目前不认为选择梁而不是火花/Flink来完成这样的任务有多大的好处。到目前为止,我能提出的唯一意见是:
是否有更好的例子突出梁模型的其他利弊?是否有任何关于失控如何影响性能的信息?
请注意,我并不是在请求流方面的差异,流方面的部分内容在这个问题中进行了介绍,并在这篇文章中进行了总结(由于Spark1.X而过时)。
发布于 2017-04-28 05:46:50
有一些东西,梁添加到许多现有的引擎。
设计梁模型是一个有用的抽象,对许多不同的引擎是棘手的。梁既不是所有引擎功能的交集(太有限了!)也不包括工会(厨房水槽太大了!)相反,Beam试图站在数据处理的前沿,将功能推入运行时引擎,并将模式从运行时引擎中提取出来。
发布于 2022-09-01 06:54:19
有用的信息可以在这里找到- https://flink.apache.org/ecosystem/2020/02/22/apache-beam-how-beam-runs-on-top-of-flink.html
-引用
发布于 2022-09-03 07:38:16
我有一个缺点,而不是好处。Beam存在一个漏洞抽象问题:当需要对问题进行调试时,我们需要了解底层运行程序及其API,在本例中是Flink,以了解问题。这使学习曲线加倍,必须同时学习Beam和Flink。最后,我们将后来开发的管道切换到Flink。
https://stackoverflow.com/questions/43581127
复制相似问题