首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何修复运行集群模式spark作业时的“连接被拒绝错误”

如何修复运行集群模式spark作业时的“连接被拒绝错误”
EN

Stack Overflow用户
提问于 2019-01-08 09:40:56
回答 1查看 3.1K关注 0票数 4

我在使用SLURM作业管理系统的uni集群上使用spark运行terasort基准测试。当我使用--master local8时,它工作得很好,但是当我将master设置为我的当前节点时,我得到了连接被拒绝的错误。

我运行此命令在本地启动应用程序,但没有出现问题:

代码语言:javascript
复制
> spark-submit \
    --class com.github.ehiggs.spark.terasort.TeraGen \
    --master local[8] \
    target/spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar 1g \
    data/terasort_in

当我使用集群模式时,我得到以下错误:

代码语言:javascript
复制
> spark-submit \
    --class com.github.ehiggs.spark.terasort.TeraGen \
    --master spark://iris-055:7077 \ #name of the cluster-node in use
    --deploy-mode cluster \
    --executor-memory 20G \
    --total-executor-cores 24 \
    target/spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar 5g \
    data/terasort_in

输出:

代码语言:javascript
复制
WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Exception in thread "main" org.apache.spark.SparkException:  Exception thrown in awaitResult: 
    at
org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:226) 
    at 
.
.
./*many lines of timeout logs etc.*/
.
.
.
Caused by: java.net.ConnectException: Connection refused
... 11 more

我希望该命令能够顺利运行并终止,但我无法克服这个连接错误。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-01-09 20:26:21

问题可能是没有定义--conf变量。这可能是可行的:

代码语言:javascript
复制
spark-submit \
    --class com.github.ehiggs.spark.terasort.TeraGen \
    --master spark://iris-055:7077 \
    --conf spark.driver.memory=4g \
    --conf spark.executor.memory=20g \
    --executor-memory 20g \
    --total-executor-cores 24 \
    target/spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar 5g \
    data/terasort_in
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54084201

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档