我是新的使用火花与Hadoop。
当前场景:
我已经使用预构建的二进制"spark-1.5.2-bin-hadoop2.6“在4个节点集群上配置了Spark。
在我的环境中还有一个Hadoop2.4集群,其中有4个节点。
我想要的:
我计划对Hadoop集群中hdfs中的数据使用Hive HQL使用Spark处理。
查询
发布于 2015-11-24 18:24:38
我认为最好的做法是在同一个集群上运行spark和hadoop。事实上,spark可以作为纱线应用程序运行(如果您与-主纱线客户端进行火花提交)。为什么?它归结为数据的局部性。数据局部性是hadoop和数据系统的一个基本概念。一般的想法是,您想要处理的数据太大了,所以与其移动数据,不如将程序移动到数据所在的节点上。因此,如果您在不同的集群上运行它,那么所有的数据都必须通过网络从一个集群移动到另一个集群。在同一个节点上进行计算和数据比较有效。
至于版本,拥有两个具有不同版本的hadoop集群可能会很痛苦。我建议您为hadoop的适当版本编译两个不同的spark安装,每个集群一个。
发布于 2016-05-27 09:14:24
您应该使用兼容版本的spark与hadoop。
如最近所知,您可以参考此处的兼容性图表:http://hortonworks.com/wp-content/uploads/2016/03/asparagus-chart-hdp24.png
https://stackoverflow.com/questions/33885478
复制相似问题