文章/答案/技术大牛

发布

社区首页 >问答首页 >在EMR步骤中使用AWS EMR、python pyspark脚本

问在EMR步骤中使用AWS EMR、python pyspark脚本
EN

Stack Overflow用户

提问于 2018-04-22 22:03:05

回答 1查看 433关注 0票数 0

我尝试在aws emr中运行一个非常简单的pyspark脚本作为步骤，如下所示：

from pyspark.sql import SparkSession
sc = SparkContext()
df = sc.read.csv("s3://folder1/file.csv",header=True,inferSchema=True)
dd=df.select(df)
write_to = "s3://spark-workflow-test/"
dd.write.csv(write_to, sep = ";", header = True)
sc.stop()

它从文件夹中读取一些文件，选择一列，然后将其写入存储桶中的另一个文件。由于某些原因，它总是失败，我不知道为什么。

这个脚本在本地spark中运行良好，但在emr步骤中，它总是失败并给出exitCode=13。是代码中有问题，spark配置还是我需要在控制台/emr界面中做些什么？我真的不知道到哪里去寻找解决方案。

emr

amazon-web-services

apache-spark

amazon-s3

pyspark

回答 1

Stack Overflow用户

发布于 2019-07-31 21:12:06

我认为你的错误在this问题上也是一样的。

您的spark上下文定义似乎关闭了。将其替换为：

sc = SparkSession.builder.getOrCreate()

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49966787

复制

相似问题

问在EMR步骤中使用AWS EMR、python pyspark脚本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在EMR步骤中使用AWS EMR、python pyspark脚本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在EMR步骤中使用AWS EMR、python pyspark脚本
EN