我的意思是,有两个选择: 1.在Hadoop集群上安装HBase,这也是离线计算,所以只有1个hadoop集群。2.安装一个用于离线计算的Hadoop集群,然后再安装一个仅供HBase使用其HDFS的Hadoop集群。
因此,有两个选项:一个是集成集群,另一个实际上是2个集群。
这两个选项的优缺点是什么?
发布于 2013-07-11 09:41:30
选项1:集成集群。
优点:读写HBase的MapReduce在数据局部性方面效率更高。
缺点: HBase地域服务器会降低机器(数据节点和TaskTracker)的性能,因为它需要容纳一些CPU和内存。如果有许多MapReduce作业,则HBase延迟可能为秒。因此,如果您想要及时做出HBase响应,您需要做更多的工作(例如,使用memcache来提高读取性能)。
选项2: 2个集群。
Prons: HBase区域服务器不会影响HDFS Datenode和TaskTracker的性能。
缺点:如果MapReduce想要访问HBase,它需要远程读写数据。该选项还需要更多的机器。
https://stackoverflow.com/questions/17583408
复制相似问题