就Lucene/Solr而言,我刚从托儿所出来,所以我可能试图完全错误地利用它,但我希望有人能给我指出正确的方向。
我的文档(少于3,000个)是来自分类法的简短声明。所有的都是单句,有些不超过4-6个单词。每个文档只有一个字段,所以跨多个字段进行搜索不是我要考虑的方法。我想要做的是查询工作相关文档的内容,并返回相关的分类语句。
目前,我正在使用Solr附带的默认示例设置,并添加了来自Wordnet的动词同义词,因为执行的操作是我试图识别的内容(即'Alter garments to specifications‘的分类语句)。
基本的单词匹配工作与预期一样,但我想让事情变得更复杂一些。因为查询很长,所以在搜索小文档时,我从来没有得到很高的相关性分数。我确信这可以通过以某种方式标准化分数来解决,所以我并不真正关心分数出来,而是正在识别的实际语句(文档)。
对文档(目前是长查询)进行动态索引、查询每个分类语句并对结果进行编译/排序是更好的做法,还是可以以其他方式有效地对小文档执行这些长查询?我认为这可能会带来它自己的困难。
发布于 2012-04-23 21:16:20
我看不出你想在这里做什么,我的意思是,你的短文档索引肯定会受到信息匮乏的影响,而一个长查询将使每个结果几乎平坦,甚至通过添加带有Wordnet同义词的每个术语来扩展文档也是令人困惑和误导的,我的建议是截断其他可能的查询形式。
https://stackoverflow.com/questions/9196011
复制相似问题