我们的一个HBase表已经增长到超过1000个区域。我们将表的MAX_FILESIZE属性从默认256 to更改为10 to,从而减少了这一点。现在我们降到了大约70个地区。
我在想这个改变的副作用是什么?换句话说,增加表的MAX_FILESIZE有哪些缺点?如果我们将MAX_FILESIZE提高到100 1TB甚至1TB会发生什么?
我最初的怀疑是,契约会大大减缓,但我想确定。你们觉得怎么样?
谢谢!
发布于 2013-12-16 21:45:58
一个重要的问题是,如果使用M/R来处理数据,那么可以从集群中获得多少并行性。正如Praveen所指出的,HBase书是这样说的:“另一个问题是区域数量对mapreduce就业的影响。保持每个RS中的5个区域对于一项工作来说太低,而1000个区域将产生太多的地图。”
他们对区域数量的经验法则是基于你的集群有多大的假设--如果你真的有1000个地图插槽,那么1000个区域就可以了。我的经验法则将更多地沿着2-3倍于地图插槽数量的区域。取决于他们提出的所有其他观点。
发布于 2013-12-16 21:19:35
查看2.5.2.6节这里,以获得每个区域服务器建议的最佳区域大小和区域数目。
https://stackoverflow.com/questions/20618582
复制相似问题