我正在尝试GZIP并将RDD发送到S3,如下所示:
dwPartitioned.saveAsTextFile(s"s3n://$accessKey:$secretKey@bucket", classOf[GzipCodec])作业开始运行,不久之后会出现以下内容:
org.apache.spark.SparkException: Job aborted due to stage failure: ... : java.io.IOException: No space left on device我读到,由于编码的原因,需要生成一些临时文件。这是真的吗?我是不是滥用了这个功能?这里有什么我可以优化的吗?
更重要的是-如何在内存中实现这一点?
如果你需要更多的信息,我很乐意提供给你。
发布于 2016-08-04 22:00:46
默认情况下,spark使用"/tmp“来保存中间文件。在作业运行时,您可以使用"df -h“选项卡查看挂载在"/”上的文件系统的已用空间。当dev的空间耗尽时,将抛出此异常。要解决此问题,请在SPARK_HOME/conf/spark_defaults.conf中设置SPARK_LOCAL_DIRS,并在fs中留出足够的空间。
https://stackoverflow.com/questions/38767228
复制相似问题