首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >SparkStreaming与Storm的区别

SparkStreaming与Storm的区别
EN

Stack Overflow用户
提问于 2014-11-22 17:09:04
回答 2查看 564关注 0票数 2

我正在对twitter上的直播流数据做一些分析。我听说了Spark streaming。我想知道哪些最适合直播流数据的分析,因为我的数据从来源来得非常快。

EN

回答 2

Stack Overflow用户

发布于 2014-11-23 02:03:36

我推荐这个主题的演示文稿:http://fr.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming

事实上,apache storm是一个真正的流架构,事件一个接一个地管理,如果你想对它们进行分组,你必须为此设计一个拓扑。就延迟和设计而言,它是最强大的。但它当然很复杂,你必须正确地设计你想要的东西。

另一方面,apache spark是一种微批处理架构,它类似于hadoop,但每x秒执行一次,在定义的时间窗口内生成微批数据。因为它看起来确实像一个批处理解决方案,所以它看起来更简单,如果你不想要延迟小于几秒的话,它就足够了。

票数 3
EN

Stack Overflow用户

发布于 2014-11-23 05:02:38

除了@zenbeni链接的非常好的演示文稿之外,我还想根据Storm和Spark streaming的第一手经验,特别是关于你的用例(Twitter数据),添加一些具体的观点。

  • 推特本身将Storm用于其实时流处理管道的许多部分。因此,如果您想要执行的处理类型类似,Storm是一个很好的选择。
  • Storm的多语言支持非常棒。但是传递错误是很困难的。例如,如果您正在从Java螺栓调用Python代码,而您的Python螺栓中发生了异常,那么要将此异常传播回Java代码并不容易。
  • 如果您的分析仅基于一条推文,那么Storm可能会更好。但是,如果您需要进行一些聚合或迭代分析,则还必须在Storm中进行微批处理。这本质上意味着你必须将状态存储在你的螺栓中。
  • 最后,通常需要同时进行流处理和批处理。当您需要将流处理与批处理、交互和迭代处理混合在一起时,Spark会大放异彩。事实上,我并不清楚你应该如何做迭代处理风暴。
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27075764

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档