在过去的几个月里,我使用了相当多的结构化流媒体来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache Spark进行流处理”一书后,我有了这样一个问题:有没有什么要点或用例可以让我使用Spark流而不是结构化流?我是不是应该花点时间去了解它,或者既然我已经在使用Spark Structured Streaming了,我应该坚持使用它,并且之前的API没有任何好处。将非常感谢任何意见/见解
发布于 2020-04-07 02:07:35
嗨,分享我的个人经历。
结构化流媒体是基于spark的流媒体实现的未来。它提供了更高级别的抽象和其他很好的特性。然而,几乎没有什么限制。
由于spark streaming提供的灵活性,我不得不在几个场合切换到spark streaming。最近的一个例子是,我们必须使用静态引用数据执行连接,但是在结构化流中不支持外部连接。这可以通过Spark streaming来实现。
在较新的spark 2.4版本中,结构化流得到了很大的改进,支持foreachBatch接收器,这提供了spark流提供的类似灵活性。
我个人的想法是,拥有spark streaming的知识是有帮助的,你可能需要根据你的用例来使用它。
https://stackoverflow.com/questions/61047701
复制相似问题