S3DistCp是否可以将多个由火花应用程序存储为.snappy.parquet输出的文件合并为一个文件,并使结果文件可由配置单元读取?
发布于 2018-12-13 00:36:50
我还试图将较小的快捷拼图文件合并为较大的快捷拼图文件。使用aws emr添加步骤--集群id {clusterID} --步骤file://filename.json和aws emr wait -complete--集群id {clusterID} --步骤id {stepID}
命令运行得很好,但是当我尝试使用parquet tools读回合并的文件时,read失败并返回java.io.EOFException。
联系AWS支持团队。他们说,在拼花地板文件上使用s3distcp时,他们有一个已知的问题,他们正在进行修复,但没有修复的预计时间。
https://stackoverflow.com/questions/44320150
复制相似问题