我想知道如何使模糊评价/计算。我发现沙吉-模糊可能很有用。但我找不到一致的模糊矩阵函数。我假设会有一些数据平台或python代码可以自动实现这一点。有人能帮我吗?
发布于 2022-08-05 15:01:38
我使用的代码是RapidFuzz包的一部分,它也计算字符串相似性。以下是一个可能有用的链接:
https://maxbachmann.github.io/RapidFuzz/Usage/process.html
当我将一列字符串与其自身进行比较时,用于生成矩阵的代码如下:
strings1= df['usernames']
C = process.cdist(strings1, strings1, scorer=fuzz.ratio, workers = -1)输出:
array([[100. , 22.222221, 19.047619, ..., 21.052631, 26.666666,
11.764706],
[ 22.222221, 100. , 21.052631, ..., 23.529411, 15.384615,
13.333333],
[ 19.047619, 21.052631, 100. , ..., 30. , 12.5 ,
22.222221],
...,
[ 21.052631, 23.529411, 30. , ..., 100. , 14.285714,
25. ],
[ 26.666666, 15.384615, 12.5 , ..., 14.285714, 100. ,
33.333332],
[ 11.764706, 13.333333, 22.222221, ..., 25. , 33.333332,
100. ]], dtype=float32)这也比使用模糊伍兹快得多,因为RapidFuzz是在C.霍普开发的,这很有帮助
https://stackoverflow.com/questions/73251667
复制相似问题