首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >相似值清洗

相似值清洗
EN

Data Science用户
提问于 2020-12-03 05:01:49
回答 1查看 28关注 0票数 -1

是否有人知道算法,如何识别相似的帐户名,以可能合并和导入为一体?

具有不同值的复制: Geico val1 NaN =====>> Geico val1 val2 Geico NaN val2

相似的或几乎精确的Geico Gaico

EN

回答 1

Data Science用户

发布于 2020-12-03 10:31:18

您专门讨论了帐户名,因此我假设它们可以作为字符串来处理。

比较字符串紧密性的一种方法是Levenshtein距离,定义为:

将一个字改为另一个字所需的最小单字编辑数(插入、删除或替换)。

碰巧有一个很好的库来实现这种模糊匹配-- 乌兹。他们在主页上有一些用法例子。

用于处理数据

的思想

在您的情况下,如果您知道正确的帐户名称,您可以计算那些正确的帐户名称与每个实际条目的相似性,并使用一个阈值将所有的密切匹配转换为正确的帐户名称。

或者,您可以计算成对的相似性配对最高的分数,将每对减少到一个单一的名字。在这种方法上迭代,直到没有超过给定阈值的相似的名称对。

对于阈值,无论是哪种情况,您都可能需要使用一个启发式值。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/86220

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档