我不认为有一种直截了当的办法来解决这个问题。您可以将每一列分别处理：datetime为时间戳邻近，string为字符串邻近(Levenshtein距离)，freq为数字距离。然后，您可以以递增的方式对每一列的每一行分别进行排序。在所有三个指标(最小差异)中排名较高的行号都是较好的重复候选。然后，您可以选择您认为是一个迟钝的情况的阈值。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57041112

复制

相似问题

问近似去重复
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问近似去重复EN