文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么使用fuzzywuzzy的令牌集比率如此之低？

问为什么使用fuzzywuzzy的令牌集比率如此之低？
EN

Stack Overflow用户

提问于 2020-10-08 17:50:54

回答 1查看 481关注 0票数 0

我正在使用fuzzywuzzy和rapidfuzz来查找评论中提到的名字。我通读了"token_set_ratio“函数的文档，但我仍然不理解以下内容：

# I preprocessed the comments to remove stop words and commonly mentioned other words

fuzz.token_set_ratio("reporting michael anders sven straumann guy called jonatjan smith partners","jonathan smith")

# returns 52.6

乔纳森·史密斯只有一个拼写错误，为什么这个比例这么低？

此外，有没有办法克服这个问题，让乔纳森得到更高的分数？

谢谢你的帮助，迈克尔

rapidfuzz

python

token

fuzzywuzzy

回答 1

Stack Overflow用户

发布于 2020-10-09 15:36:59

对于您的问题，Fuzz.token_set_ratio并不是真正合适的比例，因为它会对单词进行排序，而您希望保留名字和第二个名字的配对。您可以使用fuzz.partial_ratio将较长字符串的最佳匹配子字符串与较短字符串进行比较。

fuzz.partial_ratio(
  "reporting michael anders sven straumann guy called jonatjan smith partners",
  "jonathan smith")
# returns 92.85714285714286

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64259997

复制

相似问题

问为什么使用fuzzywuzzy的令牌集比率如此之低？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么使用fuzzywuzzy的令牌集比率如此之低？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么使用fuzzywuzzy的令牌集比率如此之低？
EN