我正在尝试合并hdfs上的小文件。这只是为了历史目的,如果需要的话,大型文件将被分解并运行在创建hadoop表的数据的过程中。是否有办法简单地做到这一点?例如,第一天接收100个小文件,合并成一个文件,然后第二天将更多的文件添加/追加到以前创建的文件中,等等.
发布于 2017-09-25 06:59:31
如果文件都是相同的“模式”,比如CSV或JSON。然后,您可以编写一个非常基本的Pig / Spark作业来读取整个文件夹中的小文件,然后将它写回其他地方,这很可能会根据HDFS块大小将所有文件合并成更大的大小。
您还提到了Hive,因此为小文件使用一个外部表,并使用CTAS查询来创建一个单独的表,从而创建一个MapReduce作业,就像Pig所做的那样。
如果可能的话,IMO的最佳解决方案是在Hadoop的“上游”设置一个系统,它会将较小的文件批量处理到更大的文件中,然后将它们转储到HDFS中。Apache NiFi是实现此目的的一个有用工具。
https://stackoverflow.com/questions/46396255
复制相似问题