首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark 1.5.2和Hadoop 2.4 (Hive 2)版本兼容性

Spark 1.5.2和Hadoop 2.4 (Hive 2)版本兼容性
EN

Stack Overflow用户
提问于 2015-11-24 04:27:07
回答 2查看 436关注 0票数 0

我是新的使用火花与Hadoop。

当前场景:

我已经使用预构建的二进制"spark-1.5.2-bin-hadoop2.6“在4个节点集群上配置了Spark。

在我的环境中还有一个Hadoop2.4集群,其中有4个节点。

我想要的:

我计划对Hadoop集群中hdfs中的数据使用Hive HQL使用Spark处理。

查询

  1. 我需要重新配置星火集群使用“火花-1.5.2-bin-hadoop2.4”二进制还是当前的一个将工作。
  2. 在两个不同的集群(但在云中相同的子网下)上使用Spark和Hadoop来在Hadoop上工作是一个很好的实践吗?
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-11-24 18:24:38

我认为最好的做法是在同一个集群上运行spark和hadoop。事实上,spark可以作为纱线应用程序运行(如果您与-主纱线客户端进行火花提交)。为什么?它归结为数据的局部性。数据局部性是hadoop和数据系统的一个基本概念。一般的想法是,您想要处理的数据太大了,所以与其移动数据,不如将程序移动到数据所在的节点上。因此,如果您在不同的集群上运行它,那么所有的数据都必须通过网络从一个集群移动到另一个集群。在同一个节点上进行计算和数据比较有效。

至于版本,拥有两个具有不同版本的hadoop集群可能会很痛苦。我建议您为hadoop的适当版本编译两个不同的spark安装,每个集群一个。

票数 0
EN

Stack Overflow用户

发布于 2016-05-27 09:14:24

您应该使用兼容版本的spark与hadoop。

如最近所知,您可以参考此处的兼容性图表:http://hortonworks.com/wp-content/uploads/2016/03/asparagus-chart-hdp24.png

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33885478

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档