我有两个数据帧,格式如下:
d = {'id2': ['1', '2'], 'name': ['paris city', 'london town']}
df1 = pd.DataFrame(data=d)
print(df1)
id2 name
0 1 paris city
1 1 london town
d = {'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']}
df2 = pd.DataFrame(data=d)
print(df2)
id2 name
0 3 parid cit
1 4 londoon town 我希望做一个模糊的字符串合并基于名称列。最终结果如下:
id2 id2 name_x name_y match_level
0 3 1 parid cit paris city 0.91
1 4 2 londoon town london town 0.93我尝试过使用模糊的wuzzy库,但是由于--我要合并的两个表--都有100k+行,所以代码需要几天才能运行。
我还看到了一些“快速”实现,比如快速fuzz或其他使用tfidf或k最近邻居的实现:然而,所有的代码示例都显示了如何根据列表找到单个字符串的匹配,我还没有找到任何其他库/实现在两个数据文件之间进行模糊合并。
什么是一种快速有效的方法来模糊合并熊猫的数据?
发布于 2021-09-14 00:20:11
import fuzzymatcher
import pandas as pd
df_left = pd.DataFrame({'id2': ['1', '2'], 'name': ['paris city', 'london town']})
df_right = pd.DataFrame({'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']})
fuzzymatcher.fuzzy_left_join(df_left, df_right, left_on = "name", right_on = "name")https://stackoverflow.com/questions/69170278
复制相似问题