首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hadoop、HBase和Hive中的性能问题

Hadoop、HBase和Hive中的性能问题
EN

Stack Overflow用户
提问于 2015-11-20 18:00:02
回答 1查看 831关注 0票数 0

我正在将数据从SQL迁移到Hadoop,其中我也使用了HBase & Hadoop。我已经成功地将数据从SQL导入到Hadoop、HBase和Hive。但问题在于系统的性能。在SQL中,我在5-10分钟内得到了数百万条条目的结果,但是从HBase & Hive获取1000万个数据需要花费大约1小时的时间。有人能帮我提高Hadoop系统的性能吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-11-20 19:45:25

HBase中的数据仅按行键进行“索引”。如果您在Hive中查询的不是行键前缀,则通常要执行完整的表扫描。

可以使用HBase过滤器进行一些优化,例如,当使用FamilyFilter时,您可能能够跳过整个区域,但我怀疑Hive是否会这样做。

如何提高性能取决于您的数据是如何形成的,以及您需要对其执行什么分析。在执行频繁的即席分析时,最好将数据从HBase导出到类似HDFS上的Parquet文件中,并针对那些带有Hive (或者钻孔或火花、Imapala等)的用户运行分析。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33833171

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档