文章/答案/技术大牛

发布

社区首页 >问答首页 >在猪和蜂巢中产卵的Mappers数量

问在猪和蜂巢中产卵的Mappers数量
EN

Stack Overflow用户

提问于 2014-04-01 06:53:42

回答 1查看 3K关注 0票数 0

我在单元格中有一个分区表，每个分区将有630个gzip压缩文件，每个文件的平均大小为100 of。如果我使用hive查询这些文件，它将准确地生成630个映射器，即一个文件的映射器。

现在，作为一个实验，我试着用猪和猪来读取这些文件，实际上合并了这些文件，只生成了两个映射器，操作比蜂箱快得多。

为什么猪和蜂箱的执行方式有区别？在蜂巢中，我们可以同样地组合小文件来生成更少的映射器吗？

hadoop

mapreduce

hive

apache-pig

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-04-01 07:44:05

您需要指定要使用CombineHiveInputFormat

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

您还应该将最小拆分大小设置得更高：

set mapred.min.split.size=100000000;

另外，由于这个原因(许多小文件)，CombineHiveInputFormat是EMR上默认的Hive输入格式，参见Amazon与Apache Hive的区别。

Pig做组合，因为默认情况下是打开的，请参见合并小输入文件

pig.splitCombination -打开或关闭合并拆分文件(默认设置为“true”)。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22778801

复制

相似问题

问在猪和蜂巢中产卵的Mappers数量
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在猪和蜂巢中产卵的Mappers数量EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在猪和蜂巢中产卵的Mappers数量
EN