我目前正在研究IR系统,在评估IR系统输出的具体查询方面,我需要一些帮助才能正确理解它。
我的书指出,当必须评估一个IR系统时,我们需要一个测试文档集合、一组查询示例、由该领域的专家定义的每一对查询/文档的估值(相关与否)。因此,我们需要两种方法来定量地判断一个红外系统是否良好:精确性和召回性。
我将解释:在计算与特定查询示例相关的精确性和召回性之前(参见上面),我们需要知道有多少元素属于相关集合,如果我们使用的查询没有赋值(不管是否相关),这是不可能的。我的书说,我们可以通过使用相关性反馈技术(查询扩展和术语重加权)来提高搜索引擎中的召回率:在这种情况下,我们是否假设召回值是未知的?
例如,每天都有许多文档在互联网上共享,而Google可以找到它们。因此,不可能将召回和精确应用于此场景,在这种场景中,信息不断增长,每个特定查询的每个新文档都没有估值。预测用户可以在搜索引擎上进行的所有可能查询也是不可能的。
发布于 2019-12-31 18:07:17
我的怀疑与以下问题有关:我们是否只有在测试IR系统时才使用这两种措施?
从技术上讲,答案是否定的,因为精确性和召回不仅用于评估IR系统,还用于评估许多其他任务。然而,您的问题似乎是特定于IR的,所以我假设它实际上是关于测试和评估之间的区别:
在IR中,每次运行系统时都会发生测试阶段,以便在查询的基础上查找相关文档。
https://datascience.stackexchange.com/questions/65663
复制相似问题