首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在加载文件时平衡HBase的负载?

如何在加载文件时平衡HBase的负载?
EN

Stack Overflow用户
提问于 2014-04-18 05:21:29
回答 1查看 198关注 0票数 1

我是Apache-Hadoop的新手。我有三个节点的Apache集群。我正在尝试加载一个有45亿条记录的文件,但它并没有被分发到所有节点。这种行为是一种区域热点。

我已经从hbase-site.xml配置文件中删除了"hbase.hregion.max.filesize“参数。

我观察到,如果我使用4个节点的集群,那么它将数据分配到3个节点,如果使用3个节点的集群,则分布到2个节点。

我想,我错过了一些配置。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-05-06 13:51:27

一般来说,对于HBase,主要问题是准备非单调的行键。如果是,则在当时只使用一个区域服务器:http://ikaisays.com/2011/01/25/app-engine-datastore-tip-monotonically-increasing-values-are-bad/

这是HBase关于RowKey设计的参考指南:

http://hbase.apache.org/book.html#rowkey.design

还有一篇非常好的文章:

http://hortonworks.com/blog/apache-hbase-region-splitting-and-merging/

在我们的例子中,预定义区域服务器还缩短了加载时间:

代码语言:javascript
复制
create 'Some_table', { NAME => 'fam'}, {SPLITS=> ['a','d','f','j','m','o','r','t','z']}

问候

帕维尔

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23147886

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档