首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >POC: Cloudera + HDFS + HBase在单独的集群上

POC: Cloudera + HDFS + HBase在单独的集群上
EN

Stack Overflow用户
提问于 2014-10-29 15:52:45
回答 2查看 397关注 0票数 0

我正在处理一个大数据系统架构。我知道Impala可以对HDFS/HBase集群中存储的数据执行查询。

但是,如果我有一个HDFS集群加上另一个存储HBase数据的集群,该怎么办?Impala能够执行合并两个集群中的数据的查询吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-11-05 21:36:50

首先,HBase将其数据存储在HDFS中。因此,我确信您的HBase集群中有HDFS。

当黑斑羚正在向HDFS读写数据时,它直接访问操作系统级别上的块。这就是为什么黑斑羚在这方面跑得这么快的原因。当黑斑羚读取HBase数据时,它将使用它的api成为一个HBase客户端,而不是像以前那样直接从磁盘读取HBase数据。

因此,HBase不必安装在与Impala相同的集群上。然而,集群需要能够相互访问。

票数 0
EN

Stack Overflow用户

发布于 2014-10-29 21:45:02

我认为您也需要在Hbase集群上安装Impala。在两个集群之间连接数据可能不是一个好主意,因为您将遇到延迟问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26634955

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档