是否有人知道算法,如何识别相似的帐户名,以可能合并和导入为一体?
具有不同值的复制: Geico val1 NaN =====>> Geico val1 val2 Geico NaN val2
相似的或几乎精确的Geico Gaico
发布于 2020-12-03 10:31:18
您专门讨论了帐户名,因此我假设它们可以作为字符串来处理。
比较字符串紧密性的一种方法是Levenshtein距离,定义为:
将一个字改为另一个字所需的最小单字编辑数(插入、删除或替换)。
碰巧有一个很好的库来实现这种模糊匹配-- 乌兹。他们在主页上有一些用法例子。
的思想
在您的情况下,如果您知道正确的帐户名称,您可以计算那些正确的帐户名称与每个实际条目的相似性,并使用一个阈值将所有的密切匹配转换为正确的帐户名称。
或者,您可以计算成对的相似性配对最高的分数,将每对减少到一个单一的名字。在这种方法上迭代,直到没有超过给定阈值的相似的名称对。
对于阈值,无论是哪种情况,您都可能需要使用一个启发式值。
https://datascience.stackexchange.com/questions/86220
复制相似问题