在SOLR中,我有一个包含id, words (indexed), raw_text字段的文档。我想这样搜索words字段:单词是文章的不定式(或者说关键字)。对于解析和柠檬化(词干),我使用了另一个工具,所以这不是问题的重点。
例如:对于这两条(案文),文字应为:
1昨天我没去上班,因为那是假日。
文字:昨天去上班是因为假期
2明天上午我要去上班,晚上我要去购物。
第二天早上上班晚上去购物
3 work :明天上班
在搜索"go“时,我希望2首先退出(更相关),因为它比1有更多的"go"-s。此外,我还想使用更长的查询和一堆词,并检索了文章,其中大多数时候包含它们。
例如:搜索:“明天工作”将返回2比3更相关,因为有两个"go"-s,而3中只有一个。
那么问题:我该如何存储words呢?multiValued还是单身?应该使用什么字段类型?
谢谢!
发布于 2012-04-30 10:00:13
(单值) text适合你。
文本带有标记化,词干和停止文字分析器。
词根词干使用启发式方法导出单词的词根。除其他外,即使在不定式中,它也会找到文章的根源:-)
试试看用于您的示例(添加了一些内容):
Original: Yesterday [yesterday's] I didn't go to work [working, workable], because it was holiday [holidays].
Stemmed: Yesterdai yesterdai s I didn t go to work work workabl becaus it wa holidai holidai
Original: Tommorrow I am going [go,going,gone] to work in the morning [mornings] and in the evening I am going shopping [shoppers, shops].
Stemmed: Tommorrow I am go go go gone to work in the morn morn and in the even I am go shop shopper shop 因为它使用启发式,“可行”不与“工作”共享根,而“消失”不与“开始”共享根。但是,这是一种折衷方法,它工作起来更简单,速度更快,而并没有降低结果质量。
“不是”和“我”是停止词根据这份清单,所以它们被自动删除。
如果您经常观察到不可接受的结果,那么就麻烦地实现字网。他们有引理,词性的一部分和其他自然语言的好处。
https://stackoverflow.com/questions/10381383
复制相似问题