我正在寻找一个“好”/容易的度量来识别与类似的位置/用户输入,避免重复的。
Levenstein距离对Typos有好处,比如
面包店 贝克里
(Levenstein距离: 2)
但是“失败”换来了交换词。
圣乌苏拉学校 圣乌苏拉学校
(Levenstein距离: 17)
和补充
严肃业务 严肃商业有限公司
发布于 2016-02-03 18:51:13
我认为使用原始距离度量是很困难的。您可能希望使用一些NLP方法(nltk)来进行ner (命名实体识别),然后使用该结果进行比较。
https://stackoverflow.com/questions/35180836
复制相似问题