假设我有这样一个数据集:

我需要检查可能的副本。在这里,第二排和第三排被怀疑是重复的。我知道字符串距离方法以及数值变量的近似匹配。但是把这两种方法结合在一起了吗?,我想找一种可以在R中实现的方法。
发布于 2019-07-15 14:00:41
我不认为有一种直截了当的办法来解决这个问题。您可以将每一列分别处理:datetime为时间戳邻近,string为字符串邻近(Levenshtein距离),freq为数字距离。然后,您可以以递增的方式对每一列的每一行分别进行排序。在所有三个指标(最小差异)中排名较高的行号都是较好的重复候选。然后,您可以选择您认为是一个迟钝的情况的阈值。
https://stackoverflow.com/questions/57041112
复制相似问题