明智的做法是用火花完全取代MR。以下是我们仍然使用MR的区域,需要您的输入才能继续使用Apache 选项-
发布于 2015-09-16 10:55:36
与使用Scala、Java和Python (更不用说R,但可能不是ETL)编写的Plus先生相比,ETL所需的锅炉板代码要少得多。特别是Scala,使ETL易于实现--需要编写的代码更少。
机器学习- ML是星火出现的原因之一。使用MapReduce,HDFS交互使许多ML程序变得非常慢(除非您有一些HDFS缓存,但我对此不太了解)。Spark可以在内存中运行,因此您可以让程序构建具有不同参数的ML模型,以便在内存中的数据集上递归地运行,因此没有文件系统交互(除了初始负载)。
NoSQL -有许多NoSQL数据源,可以很容易地插入使用SparkSQL的火花。只要谷歌你感兴趣的一个,它可能很容易连接。
流处理-火花流工作在微型批次和一个主要的卖点之一的风暴对火花流是真正的流,而不是微批。由于您已经在使用批处理,火花流应该是一个很好的适合。
蜂巢查询-有一个蜂巢上的星火项目,正在进行。检查一下这里的情况。它将允许Hive通过您的星火集群执行查询,并且应该可以与Tez上的Hive相媲美。
https://stackoverflow.com/questions/32601742
复制相似问题