最近,我一直在比较火花和Flink的一个全新的项目。在这个项目中,流功能不是那么重要。对~(90) is数据进行批量分析是最重要的。稍后,我将在数据分析中应用ML和数据挖掘。
在搜索时,我发现很多文章,演示和视频声称Flink是下一代的分析解决方案。没有多少文章能为火花辩护。另一方面,星火是(或曾经?)非常流行,并广泛部署在非常大的生产系统。
我的问题是:对于我的用例来说,流并不重要,我是拥抱Flink还是从Spark2开始?
顺便说一下,我读过this thread。这不能给我一个好的答案。
更新,2018年4月,:我们最终选择了火花。显然,除了表现之外,还有更多的问题要解决。Cloudera、Hortonworks和HDInsight在安全性、稳定性、规模、路线图等方面给企业架构师和安全审查员提供了良好的信心/证明。
发布于 2017-05-22 19:44:12
根据您的要求,Apache是最好的。火花和Flink都是先进的大数据处理技术。在integrations特性方面,、稳定性、生态系统、群落、与其他系统E 217和adaptability E 120SparkE 221E 221远领先于E 122FlinkE 223。
和Flink的主要区别是:是一个批处理处理系统,它具有流E 233抽象,而E 134E 235是E 136流代码>E 237数据处理系统,用于处理E 138无界<代码>E 239E 239数据集,它具有E 140批代码>e 241处理抽象以处理代码<>E 142有界<代码>批处理数据集。
Spark是ETL、机器学习、流媒体、数据仓库和图形处理在大量数据集上的最佳选择。Flink是流处理大型和无界数据集的最佳方法。
阿帕奇-Flink
https://stackoverflow.com/questions/44079728
复制相似问题