首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用HiveQL进行重复数据删除

使用HiveQL进行重复数据删除
EN

Stack Overflow用户
提问于 2013-04-16 20:17:50
回答 1查看 1.8K关注 0票数 0

我有一个包含字段'a'(int)、'b'(string)、'c'(bigint)、'd'(bigint)和'e'(string)的hive表。

我有如下数据:

代码语言:javascript
复制
a  b  c   d   e
---------------
1  a  10  18  i
2  b  11  19  j
3  c  12  20  k
4  d  13  21  l
1  e  14  22  m
4  f  15  23  n
2  g  16  24  o
3  h  17  25  p

表是按键'b‘排序的。

现在我们需要如下所示的输出:

代码语言:javascript
复制
a  b  c   d   e
---------------
1  e  14  22  m
4  f  15  23  n
2  g  16  24  o
3  h  17  25  p

它将在密钥'a‘上被去重,但将保留最后(最新的) 'b’。

是否可以使用配置单元查询(HiveQL)?

EN

回答 1

Stack Overflow用户

发布于 2013-04-19 13:39:46

如果b列是唯一的,请尝试使用hql:

代码语言:javascript
复制
select 
* 
from
(
    select max(b) as max_b
    from
    table
    group by a
) table1
join table on table1.max_b = table.b
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16036873

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档