首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我们什么时候去阿帕奇公园?

我们什么时候去阿帕奇公园?
EN

Stack Overflow用户
提问于 2015-09-16 06:59:41
回答 1查看 742关注 0票数 3

明智的做法是用火花完全取代MR。以下是我们仍然使用MR的区域,需要您的输入才能继续使用Apache 选项-

  • ETL :数据验证和转换。Sqoop和自定义MR程序使用MR。
  • 机器学习:达成推荐、分类和聚类的Mahout算法
  • NoSQL集成:使用MR与NoSQL数据库的接口
  • 流处理:我们使用Apache进行批处理。
  • 蜂巢查询:我们已经在使用Tez引擎来加速Hive查询,与MR引擎相比,我们看到了10X性能的提高。
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-09-16 10:55:36

与使用Scala、Java和Python (更不用说R,但可能不是ETL)编写的Plus先生相比,ETL所需的锅炉板代码要少得多。特别是Scala,使ETL易于实现--需要编写的代码更少。

机器学习- ML是星火出现的原因之一。使用MapReduce,HDFS交互使许多ML程序变得非常慢(除非您有一些HDFS缓存,但我对此不太了解)。Spark可以在内存中运行,因此您可以让程序构建具有不同参数的ML模型,以便在内存中的数据集上递归地运行,因此没有文件系统交互(除了初始负载)。

NoSQL -有许多NoSQL数据源,可以很容易地插入使用SparkSQL的火花。只要谷歌你感兴趣的一个,它可能很容易连接。

流处理-火花流工作在微型批次和一个主要的卖点之一的风暴对火花流是真正的流,而不是微批。由于您已经在使用批处理,火花流应该是一个很好的适合。

蜂巢查询-有一个蜂巢上的星火项目,正在进行。检查一下这里的情况。它将允许Hive通过您的星火集群执行查询,并且应该可以与Tez上的Hive相媲美。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32601742

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档