文章/答案/技术大牛

发布

社区首页 >问答首页 >哇哦，不要用口音搜索单词

问哇哦，不要用口音搜索单词
EN

Stack Overflow用户

提问于 2017-03-13 16:59:52

回答 1查看 464关注 0票数 3

我用Whoosh来实现一个小小的本地搜索引擎。文件中既有法文也有英文。

如你所知，口音(à è é .)在法语中经常使用。所以我不得不用Whoosh文档建议的重音折叠来对付他们

accent_analyzer = RegexAnalyzer(r'\w+') | LowercaseFilter() \
                  | StopFilter() | CharsetFilter(accent_map)

schema = Schema(path=ID(stored=True), content=TEXT(analyzer=accent_analyzer))

索引文档工作正常(没有错误)。

但是当涉及到搜索时，我没有得到包含重音的单词的结果。

例如：

让文档D与content = u'unité logique'：

使用logique进行搜索会击中文档。
使用unité进行搜索并不是这样。
使用unite进行搜索并不是这样。

因此，我认为索引作者忽略了带有重音的单词，这就是为什么它没有显示针对这些单词的查询结果，不管这些查询是否带有重音。

提醒您，我想要实现的是使用单词unité和unite访问文档unite。

python

full-text-search

whoosh

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-13 17:15:05

要求所有字符串都在unicode中。

whoosh是否要求所有字符串都是unicode？

有关unicode中的重音，请参见http://unicodelookup.com/

(https://ss64.com/unicode-accents.html)

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42769299

复制

相似问题

问哇哦，不要用口音搜索单词
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问哇哦，不要用口音搜索单词EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问哇哦，不要用口音搜索单词
EN