在无监督的情况下,我们如何评估信息检索系统的结果排名?
发布于 2021-04-23 00:49:06
一种在没有相关性评估的情况下估计检索到的信息质量的方法是借助查询性能预测(或简称QPP )。在IR文献中有大量关于QPP的工作,您可以从SIGIR/CIKM会议中挖掘出来。
从广义上讲,它使用了这样的想法,即如果顶部检索的文档集与集合有很大不同,那么它是一个合理的指示,表明顶部检索的文档集中在特定主题上,因此可能是相关的,因为本质上相关性是一个属性,也应该专注于特定主题(这只是一个假设,但这是我们在没有评估的情况下所能做的最好的事情)。
要估计top-k文档的独特性质,一种简单的技术是检查这些分数的偏斜度--它们的偏斜度越大,top-k文档与其他文档不同的可能性就越高(因此检索结果是好的)。
下图(取自此TOIS paper)显示了如何使用标准差作为(反向)偏斜度的度量。左侧分布的std_dev较小(值更接近平均值),因此这是一个系统无法检索到有用文档的查询示例。

与标准的QPP在两个查询之间进行比较的用法不同,在你的例子中,查询是固定的,你基本上会跨检索模型进行比较(例如,使用tf-idf的分数分布可能没有BM25那么不对称)。
https://stackoverflow.com/questions/67198498
复制相似问题