首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何存储文章的关键字

如何存储文章的关键字
EN

Stack Overflow用户
提问于 2012-04-30 09:32:36
回答 1查看 123关注 0票数 0

在SOLR中,我有一个包含id, words (indexed), raw_text字段的文档。我想这样搜索words字段:单词是文章的不定式(或者说关键字)。对于解析和柠檬化(词干),我使用了另一个工具,所以这不是问题的重点。

例如:对于这两条(案文),文字应为:

1昨天我没去上班,因为那是假日。

文字:昨天去上班是因为假期

2明天上午我要去上班,晚上我要去购物。

第二天早上上班晚上去购物

3 work :明天上班

在搜索"go“时,我希望2首先退出(更相关),因为它比1有更多的"go"-s。此外,我还想使用更长的查询和一堆词,并检索了文章,其中大多数时候包含它们。

例如:搜索:“明天工作”将返回23更相关,因为有两个"go"-s,而3中只有一个。

那么问题:我该如何存储words呢?multiValued还是单身?应该使用什么字段类型?

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-04-30 10:00:13

(单值) text适合你。

文本带有标记化,词干和停止文字分析器。

词根词干使用启发式方法导出单词的词根。除其他外,即使在不定式中,它也会找到文章的根源:-)

试试看用于您的示例(添加了一些内容):

代码语言:javascript
复制
Original: Yesterday [yesterday's] I didn't go to work [working, workable], because it was holiday [holidays].
Stemmed: Yesterdai yesterdai s I didn t go to work work workabl becaus it wa holidai holidai
Original: Tommorrow I am going [go,going,gone] to work in the morning [mornings] and in the evening I am going shopping [shoppers, shops].
Stemmed: Tommorrow I am go go go gone to work in the morn morn and in the even I am go shop shopper shop 

因为它使用启发式,“可行”不与“工作”共享根,而“消失”不与“开始”共享根。但是,这是一种折衷方法,它工作起来更简单,速度更快,而并没有降低结果质量

“不是”和“我”是停止词根据这份清单,所以它们被自动删除。

如果您经常观察到不可接受的结果,那么就麻烦地实现字网。他们引理,词性的一部分和其他自然语言的好处。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10381383

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档