我正在对twitter上的直播流数据做一些分析。我听说了Spark streaming。我想知道哪些最适合直播流数据的分析,因为我的数据从来源来得非常快。
发布于 2014-11-23 02:03:36
我推荐这个主题的演示文稿:http://fr.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming
事实上,apache storm是一个真正的流架构,事件一个接一个地管理,如果你想对它们进行分组,你必须为此设计一个拓扑。就延迟和设计而言,它是最强大的。但它当然很复杂,你必须正确地设计你想要的东西。
另一方面,apache spark是一种微批处理架构,它类似于hadoop,但每x秒执行一次,在定义的时间窗口内生成微批数据。因为它看起来确实像一个批处理解决方案,所以它看起来更简单,如果你不想要延迟小于几秒的话,它就足够了。
发布于 2014-11-23 05:02:38
除了@zenbeni链接的非常好的演示文稿之外,我还想根据Storm和Spark streaming的第一手经验,特别是关于你的用例(Twitter数据),添加一些具体的观点。
https://stackoverflow.com/questions/27075764
复制相似问题