首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >删除重复项+首次出现项

删除重复项+首次出现项
EN

Stack Overflow用户
提问于 2019-03-30 11:35:31
回答 1查看 217关注 0票数 0

对不起,有人知道如何删除重复的行和Google Dataprep中的第一个匹配项吗?

那么这两行(重复行+ 1.发生)都会被删除吗?

col1,col2

约翰·辛普森

威尔·法雷尔

约翰·辛普森

伊隆,马斯克

将是:

col1,col2

威尔·法雷尔

伊隆,马斯克

谢谢你们!

EN

回答 1

Stack Overflow用户

发布于 2019-04-03 06:01:11

对于更大的数据集,有一种更有效的方法是完全有可能的,但我最初的想法是使用分组。

从概念上讲,我讨论的是使用分组(连接到相同的数据也可以)作为一种方法来识别哪些行有重复项,然后使用单独的规则将它们过滤掉。

这里有一个基于您的示例数据的概念验证配方辩论:

代码语言:javascript
复制
groupby group: col1,col2 value: COUNT() type: flatAgg

filter type: greaterThan col: row_count greaterThan: 1 action: Delete

drop col: row_count action: Drop

(如果您将这些步骤粘贴到新的食谱步骤中,一次一个,它将为您创建它们)

请注意,在上面的示例中,您不必向COUNT()传递参数-它只计算每个组中的行数(类似于SQL中的COUNT(*) )。

您还可以看到,我使用的是flatAgg类型,它对应于Group by step中的"Group By as new column(s)“选项。当您有许多列时,这是非常有帮助的,因为您不希望像在普通的Group By中那样重新指定列(这将创建一个只包含您的列的新表)。为了帮助澄清这一点,以下是此步骤的设置:

希望这对我们有所帮助,祝你们争吵愉快!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55427898

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档