文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark 1.5.2和Hadoop 2.4 (Hive 2)版本兼容性

问Spark 1.5.2和Hadoop 2.4 (Hive 2)版本兼容性
EN

Stack Overflow用户

提问于 2015-11-24 04:27:07

回答 2查看 436关注 0票数 0

我是新的使用火花与Hadoop。

当前场景：

我已经使用预构建的二进制"spark-1.5.2-bin-hadoop2.6“在4个节点集群上配置了Spark。

在我的环境中还有一个Hadoop2.4集群，其中有4个节点。

我想要的：

我计划对Hadoop集群中hdfs中的数据使用Hive HQL使用Spark处理。

查询

我需要重新配置星火集群使用“火花-1.5.2-bin-hadoop2.4”二进制还是当前的一个将工作。
在两个不同的集群(但在云中相同的子网下)上使用Spark和Hadoop来在Hadoop上工作是一个很好的实践吗？

hadoop

apache-spark

hive

version

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-11-24 18:24:38

我认为最好的做法是在同一个集群上运行spark和hadoop。事实上，spark可以作为纱线应用程序运行(如果您与-主纱线客户端进行火花提交)。为什么？它归结为数据的局部性。数据局部性是hadoop和数据系统的一个基本概念。一般的想法是，您想要处理的数据太大了，所以与其移动数据，不如将程序移动到数据所在的节点上。因此，如果您在不同的集群上运行它，那么所有的数据都必须通过网络从一个集群移动到另一个集群。在同一个节点上进行计算和数据比较有效。

至于版本，拥有两个具有不同版本的hadoop集群可能会很痛苦。我建议您为hadoop的适当版本编译两个不同的spark安装，每个集群一个。

票数 0

Stack Overflow用户

发布于 2016-05-27 09:14:24

您应该使用兼容版本的spark与hadoop。

如最近所知，您可以参考此处的兼容性图表：http://hortonworks.com/wp-content/uploads/2016/03/asparagus-chart-hdp24.png

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33885478

复制

相似问题

问Spark 1.5.2和Hadoop 2.4 (Hive 2)版本兼容性
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark 1.5.2和Hadoop 2.4 (Hive 2)版本兼容性EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark 1.5.2和Hadoop 2.4 (Hive 2)版本兼容性
EN