我正在处理一个大数据系统架构。我知道Impala可以对HDFS/HBase集群中存储的数据执行查询。
但是,如果我有一个HDFS集群加上另一个存储HBase数据的集群,该怎么办?Impala能够执行合并两个集群中的数据的查询吗?
发布于 2014-11-05 21:36:50
首先,HBase将其数据存储在HDFS中。因此,我确信您的HBase集群中有HDFS。
当黑斑羚正在向HDFS读写数据时,它直接访问操作系统级别上的块。这就是为什么黑斑羚在这方面跑得这么快的原因。当黑斑羚读取HBase数据时,它将使用它的api成为一个HBase客户端,而不是像以前那样直接从磁盘读取HBase数据。
因此,HBase不必安装在与Impala相同的集群上。然而,集群需要能够相互访问。
发布于 2014-10-29 21:45:02
我认为您也需要在Hbase集群上安装Impala。在两个集群之间连接数据可能不是一个好主意,因为您将遇到延迟问题。
https://stackoverflow.com/questions/26634955
复制相似问题