假设HDFS中有大约10-20 10的数据作为一个Hive表。这是在几个Map-还原作业并通过两个单独的数据集连接之后获得的。我需要向用户查询这个问题。我有什么选择?
为了完整起见,我的数据如下所示:
id time cat1 cat2 cat3 metrics[200]
A123 1234212133 12 ABC 24 4,55,231,34,556,123....(~200)
.
.
.(时代划时代)
我的查询如下:
select cat1, corr(metrics[2],metrics[3]),corr(metrics[2],metrics[4]),corr(metrics[2],metrics[5]),corr(metrics[2],metrics[6]) from tablename group by cat1;
我需要关联函数,这就是为什么我选择postgresql而不是MySQL。
发布于 2014-10-28 15:49:43
发布于 2014-10-28 16:55:08
您可以通过odbc连接到hiveserver端口并执行查询。下面是一个例子:http://www.cloudera.com/content/cloudera/en/downloads/connectors/hive/odbc/hive-odbc-v2-5-10.html
发布于 2014-10-29 01:26:17
Hive用户体验(hue)有一个蜂蜡查询编辑器,专门用于向熟悉SQL的最终用户公开Hive。这样,它们就可以对驻留在Hive中的数据运行临时查询,而无需将其移到其他地方。您可以在这里看到蜂蜡查询编辑器的一个示例:http://demo.gethue.com/beeswax/#query
这对你有用吗?
https://stackoverflow.com/questions/26610823
复制相似问题