首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间

Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间
EN

Stack Overflow用户
提问于 2016-08-04 20:22:43
回答 1查看 113关注 0票数 1

我正在尝试GZIP并将RDD发送到S3,如下所示:

代码语言:javascript
复制
dwPartitioned.saveAsTextFile(s"s3n://$accessKey:$secretKey@bucket", classOf[GzipCodec])

作业开始运行,不久之后会出现以下内容:

代码语言:javascript
复制
org.apache.spark.SparkException: Job aborted due to stage failure:  ... : java.io.IOException: No space left on device

我读到,由于编码的原因,需要生成一些临时文件。这是真的吗?我是不是滥用了这个功能?这里有什么我可以优化的吗?

更重要的是-如何在内存中实现这一点?

如果你需要更多的信息,我很乐意提供给你。

EN

回答 1

Stack Overflow用户

发布于 2016-08-04 22:00:46

默认情况下,spark使用"/tmp“来保存中间文件。在作业运行时,您可以使用"df -h“选项卡查看挂载在"/”上的文件系统的已用空间。当dev的空间耗尽时,将抛出此异常。要解决此问题,请在SPARK_HOME/conf/spark_defaults.conf中设置SPARK_LOCAL_DIRS,并在fs中留出足够的空间。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38767228

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档