在Lucene的实际评分功能中,有一个查询协调器,它惩罚不匹配所有查询项的文档。Okapi BM25也使用同样的技巧吗?
我之所以对此感到好奇,是因为我使用了带有BM25相似模块的Elasticsearch,有时我觉得这个算法不喜欢有更多匹配的文档。有些情况下,一个文档包含一个或两个术语很多,超过一个包含所有查询条件的文档。
发布于 2018-06-10 02:43:21
是也不是。
不,它没有使用旧的Lucene默认相似性描述的coord因子(注意: Lucene核心现在默认使用BM25 )。
是的,它在更多查询条件上的点击量比在同一项中的一组点击要重得多。它以更好的术语饱和来实现这一点,使得旧的coord因子有效地过时了。
然而,总是有可能的是,在较少的条件下的许多点击将超过少数点击在更多的条件下使用任何一种算法。
https://stackoverflow.com/questions/50773130
复制相似问题