文章/答案/技术大牛

发布

社区首页 >问答首页 >删除重复项+首次出现项

问删除重复项+首次出现项
EN

Stack Overflow用户

提问于 2019-03-30 11:35:31

回答 1查看 217关注 0票数 0

对不起，有人知道如何删除重复的行和Google Dataprep中的第一个匹配项吗？

那么这两行(重复行+ 1.发生)都会被删除吗？

col1，col2

约翰·辛普森

威尔·法雷尔

约翰·辛普森

伊隆，马斯克

将是：

col1，col2

威尔·法雷尔

伊隆，马斯克

谢谢你们！

google-cloud-dataprep

回答 1

Stack Overflow用户

发布于 2019-04-03 06:01:11

对于更大的数据集，有一种更有效的方法是完全有可能的，但我最初的想法是使用分组。

从概念上讲，我讨论的是使用分组(连接到相同的数据也可以)作为一种方法来识别哪些行有重复项，然后使用单独的规则将它们过滤掉。

这里有一个基于您的示例数据的概念验证配方辩论：

groupby group: col1,col2 value: COUNT() type: flatAgg

filter type: greaterThan col: row_count greaterThan: 1 action: Delete

drop col: row_count action: Drop

(如果您将这些步骤粘贴到新的食谱步骤中，一次一个，它将为您创建它们)

请注意，在上面的示例中，您不必向COUNT()传递参数-它只计算每个组中的行数(类似于SQL中的COUNT(*) )。

您还可以看到，我使用的是flatAgg类型，它对应于Group by step中的"Group By as new column(s)“选项。当您有许多列时，这是非常有帮助的，因为您不希望像在普通的Group By中那样重新指定列(这将创建一个只包含您的列的新表)。为了帮助澄清这一点，以下是此步骤的设置：

希望这对我们有所帮助，祝你们争吵愉快！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55427898

复制

相似问题

问删除重复项+首次出现项
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除重复项+首次出现项EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除重复项+首次出现项
EN