我有一个包含字段'a'(int)、'b'(string)、'c'(bigint)、'd'(bigint)和'e'(string)的hive表。
我有如下数据:
a b c d e
---------------
1 a 10 18 i
2 b 11 19 j
3 c 12 20 k
4 d 13 21 l
1 e 14 22 m
4 f 15 23 n
2 g 16 24 o
3 h 17 25 p表是按键'b‘排序的。
现在我们需要如下所示的输出:
a b c d e
---------------
1 e 14 22 m
4 f 15 23 n
2 g 16 24 o
3 h 17 25 p它将在密钥'a‘上被去重,但将保留最后(最新的) 'b’。
是否可以使用配置单元查询(HiveQL)?
发布于 2013-04-19 13:39:46
如果b列是唯一的,请尝试使用hql:
select
*
from
(
select max(b) as max_b
from
table
group by a
) table1
join table on table1.max_b = table.bhttps://stackoverflow.com/questions/16036873
复制相似问题