首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop合并文件

Hadoop合并文件
EN

Stack Overflow用户
提问于 2016-10-01 18:31:51
回答 1查看 7.2K关注 0票数 6

我已经使用674个映射程序运行了一个只有映射的作业,它使用一个已生成的674个.gz文件,我想将这些文件合并到aroung 30-35 files.have,通过没有获得合并的输出尝试了hive mapfilse属性。

EN

回答 1

Stack Overflow用户

发布于 2016-10-03 02:59:06

尝试使用TEZ执行引擎,然后使用hive.merge.tezfiles。您也可能希望指定大小。

代码语言:javascript
复制
set hive.execution.engine=tez; -- TEZ execution engine
set hive.merge.tezfiles=true; -- Notifying that merge step is required
set hive.merge.smallfiles.avgsize=128000000; --128MB
set hive.merge.size.per.task=128000000; -- 128MB

如果您想使用MR引擎,那么添加以下设置(我还没有亲自尝试过)

代码语言:javascript
复制
set hive.merge.mapredfiles=true; -- Notifying that merge step is required
set hive.merge.smallfiles.avgsize=128000000; --128MB
set hive.merge.size.per.task=128000000; -- 128MB

以上设置将产生更多的步骤来合并文件,并且每个部件文件的大约大小应该是128 of。

参考资料:

票数 12
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39810149

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档