首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Elasticsearch自定义词干提取算法

Elasticsearch自定义词干提取算法
EN

Stack Overflow用户
提问于 2016-09-15 02:27:00
回答 1查看 120关注 0票数 1

我正在将应用程序从dtSearch迁移到elasticsearch,并希望在不改变最终用户流程的情况下保持相同的功能。我遇到的主要问题是词干。我们允许用户以dtSearch格式指定他们自己的词干规则:

代码语言:javascript
复制
3+ies  -> y
3+ing  ->

其中3是前面的字符数,ies是后缀,y是要替换的内容。是否可以为elasticsearch指定自定义算法(好的...lucene引擎),这样用户就不必更新他们的词干规则来符合新的搜索服务?或者这两种方法是相互排斥的?

EN

回答 1

Stack Overflow用户

发布于 2016-09-16 04:03:44

对于痛苦的、极其肮脏的解决方案,您可以使用正则表达式。

https://www.elastic.co/guide/en/elasticsearch/reference/2.4/analysis-pattern_replace-tokenfilter.html

否则,你必须创建你自己的Elasticsearch分析插件(用java实现一个令牌过滤器,它可以做你想做的事)。

https://www.elastic.co/guide/en/elasticsearch/plugins/2.4/plugin-authors.html

如果您可以在内存中将词干规则表示为DFA,那么它的性能会最好。有几个java自动机库你可以使用。(例如http://www.brics.dk/automaton/faq.html)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39497254

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档