首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >近似去重复

近似去重复
EN

Stack Overflow用户
提问于 2019-07-15 13:45:15
回答 1查看 97关注 0票数 0

假设我有这样一个数据集:

我需要检查可能的副本。在这里,第二排和第三排被怀疑是重复的。我知道字符串距离方法以及数值变量的近似匹配。但是把这两种方法结合在一起了吗?,我想找一种可以在R中实现的方法。

EN

回答 1

Stack Overflow用户

发布于 2019-07-15 14:00:41

我不认为有一种直截了当的办法来解决这个问题。您可以将每一列分别处理:datetime为时间戳邻近,string为字符串邻近(Levenshtein距离),freq为数字距离。然后,您可以以递增的方式对每一列的每一行分别进行排序。在所有三个指标(最小差异)中排名较高的行号都是较好的重复候选。然后,您可以选择您认为是一个迟钝的情况的阈值。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57041112

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档