问对非常短的文档进行长查询
EN

Stack Overflow用户

提问于 2012-02-08 23:13:07

回答 1查看 222关注 0票数 0

就Lucene/Solr而言，我刚从托儿所出来，所以我可能试图完全错误地利用它，但我希望有人能给我指出正确的方向。

我的文档(少于3,000个)是来自分类法的简短声明。所有的都是单句，有些不超过4-6个单词。每个文档只有一个字段，所以跨多个字段进行搜索不是我要考虑的方法。我想要做的是查询工作相关文档的内容，并返回相关的分类语句。

目前，我正在使用Solr附带的默认示例设置，并添加了来自Wordnet的动词同义词，因为执行的操作是我试图识别的内容(即'Alter garments to specifications‘的分类语句)。

基本的单词匹配工作与预期一样，但我想让事情变得更复杂一些。因为查询很长，所以在搜索小文档时，我从来没有得到很高的相关性分数。我确信这可以通过以某种方式标准化分数来解决，所以我并不真正关心分数出来，而是正在识别的实际语句(文档)。

对文档(目前是长查询)进行动态索引、查询每个分类语句并对结果进行编译/排序是更好的做法，还是可以以其他方式有效地对小文档执行这些长查询？我认为这可能会带来它自己的困难。

发布于 2012-04-23 21:16:20

我看不出你想在这里做什么，我的意思是，你的短文档索引肯定会受到信息匮乏的影响，而一个长查询将使每个结果几乎平坦，甚至通过添加带有Wordnet同义词的每个术语来扩展文档也是令人困惑和误导的，我的建议是截断其他可能的查询形式。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9196011

复制

相似问题

问对非常短的文档进行长查询EN