文章/答案/技术大牛

发布

问熊猫快速模糊匹配
EN

Stack Overflow用户

提问于 2021-09-13 23:57:17

回答 1查看 1.2K关注 0票数 1

我有两个数据帧，格式如下：

d = {'id2': ['1', '2'], 'name': ['paris city', 'london town']}
    df1 = pd.DataFrame(data=d)
   
print(df1)
     id2   name 
0     1  paris city              
1     1  london town   


d = {'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']}
    df2 = pd.DataFrame(data=d)
   
print(df2)
     id2   name 
0     3  parid cit              
1     4  londoon town

我希望做一个模糊的字符串合并基于名称列。最终结果如下：

     id2  id2    name_x          name_y      match_level
0     3    1   parid cit       paris city         0.91
1     4    2   londoon town    london town        0.93

我尝试过使用模糊的wuzzy库，但是由于--我要合并的两个表--都有100k+行，所以代码需要几天才能运行。

我还看到了一些“快速”实现，比如快速fuzz或其他使用tfidf或k最近邻居的实现:然而，所有的代码示例都显示了如何根据列表找到单个字符串的匹配，我还没有找到任何其他库/实现在两个数据文件之间进行模糊合并。

什么是一种快速有效的方法来模糊合并熊猫的数据？

python

pandas

merge

fuzzy-search

rapidfuzz

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-09-14 00:20:11

import fuzzymatcher
import pandas as pd

df_left =  pd.DataFrame({'id2': ['1', '2'], 'name': ['paris city', 'london town']})

df_right =  pd.DataFrame({'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']})

fuzzymatcher.fuzzy_left_join(df_left, df_right, left_on = "name", right_on = "name")

这是地址：https://github.com/RobinL/fuzzymatcher

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69170278

复制

相似问题

问熊猫快速模糊匹配
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫快速模糊匹配EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫快速模糊匹配
EN