我们今天开始收到这个通用的-
原因: org.apache.spark.SparkException:由于阶段故障导致作业中止: java.io.EOFException
我看到一些文章讨论这是由于大文件,缺失库,或内存限制。
https://datascience.stackexchange.com/questions/40130/pyspark-java-io-eofexception
PySpark throws java.io.EOFException when reading big files with boto3
发布于 2021-04-12 23:44:04
对我们来说,它最终是一个空的.seq文件,它是由我们的ETL工具之一编写的。删除该无效文件已为我们解决了问题。
https://stackoverflow.com/questions/67061445
复制相似问题