对不起,有人知道如何删除重复的行和Google Dataprep中的第一个匹配项吗?
那么这两行(重复行+ 1.发生)都会被删除吗?
col1,col2
约翰·辛普森
威尔·法雷尔
约翰·辛普森
伊隆,马斯克
将是:
col1,col2
威尔·法雷尔
伊隆,马斯克
谢谢你们!
发布于 2019-04-03 06:01:11
对于更大的数据集,有一种更有效的方法是完全有可能的,但我最初的想法是使用分组。
从概念上讲,我讨论的是使用分组(连接到相同的数据也可以)作为一种方法来识别哪些行有重复项,然后使用单独的规则将它们过滤掉。
这里有一个基于您的示例数据的概念验证配方辩论:
groupby group: col1,col2 value: COUNT() type: flatAgg
filter type: greaterThan col: row_count greaterThan: 1 action: Delete
drop col: row_count action: Drop(如果您将这些步骤粘贴到新的食谱步骤中,一次一个,它将为您创建它们)
请注意,在上面的示例中,您不必向COUNT()传递参数-它只计算每个组中的行数(类似于SQL中的COUNT(*) )。
您还可以看到,我使用的是flatAgg类型,它对应于Group by step中的"Group By as new column(s)“选项。当您有许多列时,这是非常有帮助的,因为您不希望像在普通的Group By中那样重新指定列(这将创建一个只包含您的列的新表)。为了帮助澄清这一点,以下是此步骤的设置:

希望这对我们有所帮助,祝你们争吵愉快!
https://stackoverflow.com/questions/55427898
复制相似问题