问hadoop中的小文件
EN

Stack Overflow用户

提问于 2017-09-25 00:55:40

回答 1查看 233关注 0票数 0

我正在尝试合并hdfs上的小文件。这只是为了历史目的，如果需要的话，大型文件将被分解并运行在创建hadoop表的数据的过程中。是否有办法简单地做到这一点？例如，第一天接收100个小文件，合并成一个文件，然后第二天将更多的文件添加/追加到以前创建的文件中，等等.

回答已采纳

发布于 2017-09-25 06:59:31

如果文件都是相同的“模式”，比如CSV或JSON。然后，您可以编写一个非常基本的Pig / Spark作业来读取整个文件夹中的小文件，然后将它写回其他地方，这很可能会根据HDFS块大小将所有文件合并成更大的大小。

您还提到了Hive，因此为小文件使用一个外部表，并使用CTAS查询来创建一个单独的表，从而创建一个MapReduce作业，就像Pig所做的那样。

如果可能的话，IMO的最佳解决方案是在Hadoop的“上游”设置一个系统，它会将较小的文件批量处理到更大的文件中，然后将它们转储到HDFS中。Apache NiFi是实现此目的的一个有用工具。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46396255

复制

相似问题

问hadoop中的小文件EN