文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间

问Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间
EN

Stack Overflow用户

提问于 2016-08-04 20:22:43

回答 1查看 113关注 0票数 1

我正在尝试GZIP并将RDD发送到S3，如下所示：

dwPartitioned.saveAsTextFile(s"s3n://$accessKey:$secretKey@bucket", classOf[GzipCodec])

作业开始运行，不久之后会出现以下内容：

org.apache.spark.SparkException: Job aborted due to stage failure:  ... : java.io.IOException: No space left on device

我读到，由于编码的原因，需要生成一些临时文件。这是真的吗？我是不是滥用了这个功能？这里有什么我可以优化的吗？

更重要的是-如何在内存中实现这一点？

如果你需要更多的信息，我很乐意提供给你。

scala

apache-spark

amazon-s3

gzip

回答 1

Stack Overflow用户

发布于 2016-08-04 22:00:46

默认情况下，spark使用"/tmp“来保存中间文件。在作业运行时，您可以使用"df -h“选项卡查看挂载在"/”上的文件系统的已用空间。当dev的空间耗尽时，将抛出此异常。要解决此问题，请在SPARK_HOME/conf/spark_defaults.conf中设置SPARK_LOCAL_DIRS，并在fs中留出足够的空间。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38767228

复制

相似问题

问Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间
EN