我尝试在aws emr中运行一个非常简单的pyspark脚本作为步骤,如下所示:
from pyspark.sql import SparkSession
sc = SparkContext()
df = sc.read.csv("s3://folder1/file.csv",header=True,inferSchema=True)
dd=df.select(df)
write_to = "s3://spark-workflow-test/"
dd.write.csv(write_to, sep = ";", header = True)
sc.stop()它从文件夹中读取一些文件,选择一列,然后将其写入存储桶中的另一个文件。由于某些原因,它总是失败,我不知道为什么。
这个脚本在本地spark中运行良好,但在emr步骤中,它总是失败并给出exitCode=13。是代码中有问题,spark配置还是我需要在控制台/emr界面中做些什么?我真的不知道到哪里去寻找解决方案。
发布于 2019-07-31 21:12:06
https://stackoverflow.com/questions/49966787
复制相似问题