首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Lucene ShingleFilter提取Lucene中的双连词频率

使用Lucene ShingleFilter提取Lucene中的双连词频率
EN

Stack Overflow用户
提问于 2012-09-03 23:01:46
回答 1查看 577关注 0票数 0

如果Lucene ShingleFilter可用于将字符串标记为不同大小的瓦片或ngram,例如:

代码语言:javascript
复制
"please divide this sentence into shingles"

变成:

代码语言:javascript
复制
shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"

有没有人知道这是否可以与其他分析器结合使用,以返回发现的二元或三元语法的频率,例如:

代码语言:javascript
复制
"please divide this please divide sentence into shingles"

会为“请除”返回2吗?

我应该补充说,我的字符串是从数据库构建的,然后由Lucene在内存中索引,并且不是持久化的。不打算使用其他产品,如Solr。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-09-07 07:48:22

我最终将snowballAnalyzer和standardAnalyzers作为参数传递给ShingleFilterWrappers,并通过TermVectorMapper处理输出。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12250275

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档