我在qubole上运行了apache spark 1.6.3中的一段代码,它将数据写入s3上的多个表(parquet格式)。在写入表的时候,我一直在获取java.io.FileNotFound exception。
我甚至还在设置:spark.sql.parquet.output.committer.class=org.apache.spark.sql.parquet.DirectParquetOutputCommitter.
但这似乎并没有解决我的问题。此外,在检查日志时,我发现异常是由于_temporary location being missing引起的。我不明白为什么在使用了DirectParquetOutputCommitter之后还会有_temporary的位置。这种异常一直在发生。
如果有人知道如何在qubole中解决这个问题,请让我知道。谢谢。
发布于 2017-11-27 18:59:07
S3不是一个一致的文件系统;它是一个最终一致的对象存储,它的列表操作往往会短暂地滞后于已创建的文件。
任何假定写入的数据明显“在那里”的代码都可能在这个世界上崩溃。抱歉的
https://stackoverflow.com/questions/47447717
复制相似问题