首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >查询蜂巢处理的大量数据

查询蜂巢处理的大量数据
EN

Stack Overflow用户
提问于 2014-10-28 14:26:01
回答 4查看 385关注 0票数 0

假设HDFS中有大约10-20 10的数据作为一个Hive表。这是在几个Map-还原作业并通过两个单独的数据集连接之后获得的。我需要向用户查询这个问题。我有什么选择?

  1. 使用斯库普将数据从HDFS传输到像Postgresql这样的RDS。但我不想花那么多时间在数据传输上。我刚刚使用Sqoop在同一个AWS区域测试了HDFS->RDS,800 of的数据需要4-8分钟。因此,您可以想象~60 be的数据将是非常无法管理的。这将是我最后的选择。
  2. 根据用户请求直接从我的per服务器查询蜂巢。我从来没有像这样使用过蜂巢,所以我对此持怀疑态度。这让我印象深刻,因为我刚刚发现,您可以在EMR集群上进行一些端口转发之后远程查询蜂箱表。但作为新的大数据(Ish),我不太确定与此相关的风险。这样做很平常吗?
  3. 其他的解决办法--人们通常是怎么做这种事情的?似乎是个很普通的任务。

为了完整起见,我的数据如下所示:

代码语言:javascript
复制
id     time             cat1    cat2    cat3    metrics[200]
A123   1234212133        12     ABC      24      4,55,231,34,556,123....(~200)
.
.
.

(时代划时代)

我的查询如下:

select cat1, corr(metrics[2],metrics[3]),corr(metrics[2],metrics[4]),corr(metrics[2],metrics[5]),corr(metrics[2],metrics[6]) from tablename group by cat1;

我需要关联函数,这就是为什么我选择postgresql而不是MySQL。

EN

回答 4

Stack Overflow用户

发布于 2014-10-28 15:49:43

蜂巢中有相关函数

corr(col1,col2)

返回组中一对数字列的Pearson相关系数。

票数 0
EN

Stack Overflow用户

发布于 2014-10-28 16:55:08

您可以通过odbc连接到hiveserver端口并执行查询。下面是一个例子:http://www.cloudera.com/content/cloudera/en/downloads/connectors/hive/odbc/hive-odbc-v2-5-10.html

票数 0
EN

Stack Overflow用户

发布于 2014-10-29 01:26:17

Hive用户体验(hue)有一个蜂蜡查询编辑器,专门用于向熟悉SQL的最终用户公开Hive。这样,它们就可以对驻留在Hive中的数据运行临时查询,而无需将其移到其他地方。您可以在这里看到蜂蜡查询编辑器的一个示例:http://demo.gethue.com/beeswax/#query

这对你有用吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26610823

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档