文章/答案/技术大牛

发布

社区首页 >问答首页 >查询蜂巢处理的大量数据

问查询蜂巢处理的大量数据
EN

Stack Overflow用户

提问于 2014-10-28 14:26:01

回答 4查看 385关注 0票数 0

假设HDFS中有大约10-20 10的数据作为一个Hive表。这是在几个Map-还原作业并通过两个单独的数据集连接之后获得的。我需要向用户查询这个问题。我有什么选择？

使用斯库普将数据从HDFS传输到像Postgresql这样的RDS。但我不想花那么多时间在数据传输上。我刚刚使用Sqoop在同一个AWS区域测试了HDFS->RDS，800 of的数据需要4-8分钟。因此，您可以想象~60 be的数据将是非常无法管理的。这将是我最后的选择。
根据用户请求直接从我的per服务器查询蜂巢。我从来没有像这样使用过蜂巢，所以我对此持怀疑态度。这让我印象深刻，因为我刚刚发现，您可以在EMR集群上进行一些端口转发之后远程查询蜂箱表。但作为新的大数据(Ish)，我不太确定与此相关的风险。这样做很平常吗？
其他的解决办法--人们通常是怎么做这种事情的？似乎是个很普通的任务。

为了完整起见，我的数据如下所示：

id     time             cat1    cat2    cat3    metrics[200]
A123   1234212133        12     ABC      24      4,55,231,34,556,123....(~200)
.
.
.

(时代划时代)

我的查询如下：

select cat1, corr(metrics[2],metrics[3]),corr(metrics[2],metrics[4]),corr(metrics[2],metrics[5]),corr(metrics[2],metrics[6]) from tablename group by cat1;

我需要关联函数，这就是为什么我选择postgresql而不是MySQL。

database

hadoop

hive

bigdata

回答 4

Stack Overflow用户

发布于 2014-10-28 15:49:43

在蜂巢中有相关函数

corr(col1，col2)

返回组中一对数字列的Pearson相关系数。

票数 0

Stack Overflow用户

发布于 2014-10-28 16:55:08

您可以通过odbc连接到hiveserver端口并执行查询。下面是一个例子：http://www.cloudera.com/content/cloudera/en/downloads/connectors/hive/odbc/hive-odbc-v2-5-10.html

票数 0

Stack Overflow用户

发布于 2014-10-29 01:26:17

Hive用户体验(hue)有一个蜂蜡查询编辑器，专门用于向熟悉SQL的最终用户公开Hive。这样，它们就可以对驻留在Hive中的数据运行临时查询，而无需将其移到其他地方。您可以在这里看到蜂蜡查询编辑器的一个示例：http://demo.gethue.com/beeswax/#query

这对你有用吗？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26610823

复制

相似问题

问查询蜂巢处理的大量数据
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查询蜂巢处理的大量数据EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查询蜂巢处理的大量数据
EN