我的cascalog EMR任务在S3存储桶上生成了成千上万个小文件。它生成的文件数量与我使用的reducers数量相同。转储所有这些小文件只需要几分钟。我想知道是否有一种方法可以将它们合并到S3上,这样我就可以快速地转储它们?
谢谢
康
发布于 2013-04-24 13:40:24
这个问题有几种解决方案--下面是我使用的解决方案:
https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/Consolidator.java
https://stackoverflow.com/questions/15852520
相似问题