首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >hadoop中的小文件

hadoop中的小文件
EN

Stack Overflow用户
提问于 2017-09-25 00:55:40
回答 1查看 233关注 0票数 0

我正在尝试合并hdfs上的小文件。这只是为了历史目的,如果需要的话,大型文件将被分解并运行在创建hadoop表的数据的过程中。是否有办法简单地做到这一点?例如,第一天接收100个小文件,合并成一个文件,然后第二天将更多的文件添加/追加到以前创建的文件中,等等.

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-25 06:59:31

如果文件都是相同的“模式”,比如CSV或JSON。然后,您可以编写一个非常基本的Pig / Spark作业来读取整个文件夹中的小文件,然后将它写回其他地方,这很可能会根据HDFS块大小将所有文件合并成更大的大小。

您还提到了Hive,因此为小文件使用一个外部表,并使用CTAS查询来创建一个单独的表,从而创建一个MapReduce作业,就像Pig所做的那样。

如果可能的话,IMO的最佳解决方案是在Hadoop的“上游”设置一个系统,它会将较小的文件批量处理到更大的文件中,然后将它们转储到HDFS中。Apache NiFi是实现此目的的一个有用工具。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46396255

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档