文章/答案/技术大牛

发布

社区首页 >问答首页 >如何存储文章的关键字

问如何存储文章的关键字
EN

Stack Overflow用户

提问于 2012-04-30 09:32:36

回答 1查看 123关注 0票数 0

在SOLR中，我有一个包含id, words (indexed), raw_text字段的文档。我想这样搜索words字段:单词是文章的不定式(或者说关键字)。对于解析和柠檬化(词干)，我使用了另一个工具，所以这不是问题的重点。

例如:对于这两条(案文)，文字应为：

1昨天我没去上班，因为那是假日。

文字:昨天去上班是因为假期

2明天上午我要去上班，晚上我要去购物。

第二天早上上班晚上去购物

3 work :明天上班

在搜索"go“时，我希望2首先退出(更相关)，因为它比1有更多的"go"-s。此外，我还想使用更长的查询和一堆词，并检索了文章，其中大多数时候包含它们。

例如:搜索：“明天工作”将返回2比3更相关，因为有两个"go"-s，而3中只有一个。

那么问题：我该如何存储words呢？multiValued还是单身？应该使用什么字段类型？

谢谢!

solr

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-04-30 10:00:13

(单值) text适合你。

文本带有标记化，词干和停止文字分析器。

词根词干使用启发式方法导出单词的词根。除其他外，即使在不定式中，它也会找到文章的根源:-)

试试看用于您的示例(添加了一些内容)：

Original: Yesterday [yesterday's] I didn't go to work [working, workable], because it was holiday [holidays].
Stemmed: Yesterdai yesterdai s I didn t go to work work workabl becaus it wa holidai holidai
Original: Tommorrow I am going [go,going,gone] to work in the morning [mornings] and in the evening I am going shopping [shoppers, shops].
Stemmed: Tommorrow I am go go go gone to work in the morn morn and in the even I am go shop shopper shop

因为它使用启发式，“可行”不与“工作”共享根，而“消失”不与“开始”共享根。但是，这是一种折衷方法，它工作起来更简单，速度更快，而并没有降低结果质量。

“不是”和“我”是停止词根据这份清单，所以它们被自动删除。

如果您经常观察到不可接受的结果，那么就麻烦地实现字网。他们有引理，词性的一部分和其他自然语言的好处。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10381383

复制

相似问题

问如何存储文章的关键字
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何存储文章的关键字EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何存储文章的关键字
EN