首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >哇哦,不要用口音搜索单词

哇哦,不要用口音搜索单词
EN

Stack Overflow用户
提问于 2017-03-13 16:59:52
回答 1查看 464关注 0票数 3

我用Whoosh来实现一个小小的本地搜索引擎。文件中既有法文也有英文。

如你所知,口音(à è é .)在法语中经常使用。所以我不得不用Whoosh文档建议的重音折叠来对付他们

代码语言:javascript
复制
accent_analyzer = RegexAnalyzer(r'\w+') | LowercaseFilter() \
                  | StopFilter() | CharsetFilter(accent_map)

schema = Schema(path=ID(stored=True), content=TEXT(analyzer=accent_analyzer))

索引文档工作正常(没有错误)。

但是当涉及到搜索时,我没有得到包含重音的单词的结果。

例如:

让文档Dcontent = u'unité logique'

  • 使用logique进行搜索会击中文档。
  • 使用unité进行搜索并不是这样。
  • 使用unite进行搜索并不是这样。

因此,我认为索引作者忽略了带有重音的单词,这就是为什么它没有显示针对这些单词的查询结果,不管这些查询是否带有重音。

提醒您,我想要实现的是使用单词unitéunite访问文档unite

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-13 17:15:05

要求所有字符串都在unicode中。

whoosh是否要求所有字符串都是unicode?

有关unicode中的重音,请参见http://unicodelookup.com/

(https://ss64.com/unicode-accents.html)

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42769299

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档