首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在EMR步骤中使用AWS EMR、python pyspark脚本

在EMR步骤中使用AWS EMR、python pyspark脚本
EN

Stack Overflow用户
提问于 2018-04-22 22:03:05
回答 1查看 433关注 0票数 0

我尝试在aws emr中运行一个非常简单的pyspark脚本作为步骤,如下所示:

代码语言:javascript
复制
from pyspark.sql import SparkSession
sc = SparkContext()
df = sc.read.csv("s3://folder1/file.csv",header=True,inferSchema=True)
dd=df.select(df)
write_to = "s3://spark-workflow-test/"
dd.write.csv(write_to, sep = ";", header = True)
sc.stop()

它从文件夹中读取一些文件,选择一列,然后将其写入存储桶中的另一个文件。由于某些原因,它总是失败,我不知道为什么。

这个脚本在本地spark中运行良好,但在emr步骤中,它总是失败并给出exitCode=13。是代码中有问题,spark配置还是我需要在控制台/emr界面中做些什么?我真的不知道到哪里去寻找解决方案。

EN

回答 1

Stack Overflow用户

发布于 2019-07-31 21:12:06

我认为你的错误在this问题上也是一样的。

您的spark上下文定义似乎关闭了。将其替换为:

代码语言:javascript
复制
sc = SparkSession.builder.getOrCreate()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49966787

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档