首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将elasticsearch与apache火花流或风暴连接起来?

如何将elasticsearch与apache火花流或风暴连接起来?
EN

Stack Overflow用户
提问于 2016-07-08 16:41:16
回答 1查看 3.1K关注 0票数 3

我们正在用开源工具构建一个实时的大数据工具。我们的主要目标是通过实时从kafka服务器获取日志来监控和分析网络。我们在教程中看到,我们必须将我们的工具分成两个部分:分析和监督,如下所示。

对于监督部分,我们选择了解决方案Elasticsearch和Logstash。

关于分析部分,我和我的团队正在比较Apache流和Apache,以便与Elasticsearch一起使用它。尽管Apache是一个真正的实时数据处理工具,比Apache流更快,但它并不提供像Apache这样的机器学习库。这就是为什么我们正在考虑选择Apache火花。弹性网站表明,它存在一个连接器ES-Hadoop来连接Elasticsearch数据库到Hadoop生态系统。我们可以从下图中看到这一点。

但是,我们对这幅图有点困惑,因为这里只存在spark,而不是所有的spark框架(MLlib,SparkStreaming..net)。我们做了一些假设,最后提出了两种可能的架构。我们只想知道技术上是否正确,我们是否走错了方向。

使用Apache Spark流:

与Apache Storm:

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-08 23:33:17

你的架构图都没问题。请记住,火花流在这种情况下是行不通的。Es-hadoop为您提供了易于访问的apis,可以从弹性中获取数据并将其放入弹性中。它还提供了在星火sql情况下获取数据内部、火花框架(RDD)或数据帧的方法。一旦数据在框架中,所有ml库都可以应用到数据中,用于ml或分析生成。弹性无法传输数据,因此严格意义上的火花流是不可能的。因此,在图表中,可以删除指向hdfs的箭头(可选的,然后是火花流),将箭头( juat pointa )移到hdfs。但是,我担心的是在数据上实时运行mllib algos,并期望实时性能。典型的用例可以是离线建模生成,并实时使用模型进行分析。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38271713

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档