首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么partitioning+bucketing比从普通表中查询要花更长的时间?

为什么partitioning+bucketing比从普通表中查询要花更长的时间?
EN

Stack Overflow用户
提问于 2015-09-19 00:08:15
回答 1查看 56关注 0票数 0

我的数据如下:

代码语言:javascript
复制
Wban Number, YearMonthDay, Time, Hourly Precip
03011,20060301,0050,0

现在这个文件有超过1个million+行。因此,我创建了一个包含分区(在wbannumber上)和存储桶(在年月日)的表:

代码语言:javascript
复制
create table hpd_bkt
(
YearMonthDay INT,
Time INT, 
HourlyPrecip float
)
partitioned by (wbannum int)
clustered by (yearmonthday) sorted by (yearmonthday) into 31 buckets
row format delimited 
fields terminated by ','
lines terminated by '\n'
stored as textfile;

然后:

代码语言:javascript
复制
insert overwrite table hpd_bkt partition(wbannum)
Select  yearmonthday,time,hourlyprecip,wbannum from hpd;

现在,我使用以下查询来获取不同的wbannumber(对于partition+bucket表):

代码语言:javascript
复制
select count(distinct wbannum) from hpd_bkt;

总共花了103秒来处理这个( 13秒CPU时间)

但从普通数据表中查询时,总共需要21秒(8秒CPU时间)

谁能解释一下,我在这里可能做错了什么?

EN

回答 1

Stack Overflow用户

发布于 2015-09-19 07:13:10

一种可能性是,使用bucketing进行分区可能会产生许多较小的文件。理想情况下,您的文件大小应至少为块大小,才能获得良好的性能。

观察这两种情况下调度的映射器的数量。在分区和分组的情况下,您可能会注意到更多的映射器,每个映射器对应于较小的数据集。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32656517

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档