我有一个通过qubole运行的pyspark作业,它失败了,错误如下。
Qubole > Shell Command failed, exit code unknown
Qubole > 2016-12-03 17:36:53,097 ERROR shellcli.py:231 - run - Retrying exception reading mapper output: (22, 'The requested URL returned error: 404 Not Found')
Qubole > 2016-12-03 17:36:53,358 ERROR shellcli.py:262 - run - Retrying exception reading mapper logs: (22, 'The requested URL returned error: 404 Not Found')该作业使用以下配置运行:
--num-executors 38 --executor-cores 2 --executor-memory 12288M --driver-memory 4000M --conf spark.storage.memoryFraction=0.3 --conf spark.yarn.executor.memoryOverhead=1024集群包含30个从机数。m2.2xlarge,4核主从节点。
对问题根本原因的任何见解都将是有用的。
发布于 2017-08-30 09:26:24
在许多情况下,上述错误并不是失败的主要原因。在qubole中,spark任务是通过一个shellCli (1mapper命令,在一个从节点上使用spark-submit调用主要的pyspark任务)提交的--由于相同的shellCli进程在yarn-client模式下调用驱动程序--通常情况下,如果该进程由于任何原因(例如驱动程序的内存问题)而出错,那么您可能会遇到这个问题。其他不太可能的原因可能是网络连接,其中qubole层无法连接到正在运行此1映射程序调用程序作业的进程/从节点。
https://stackoverflow.com/questions/40950730
复制相似问题