首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >评估IR系统(精确和召回)

评估IR系统(精确和召回)
EN

Data Science用户
提问于 2019-12-31 13:25:01
回答 1查看 241关注 0票数 3

我目前正在研究IR系统,在评估IR系统输出的具体查询方面,我需要一些帮助才能正确理解它。

我的书指出,当必须评估一个IR系统时,我们需要一个测试文档集合、一组查询示例、由该领域的专家定义的每一对查询/文档的估值(相关与否)。因此,我们需要两种方法来定量地判断一个红外系统是否良好:精确性和召回性。

我的怀疑与以下问题有关:我们是否只在测试IR系统时才使用这两种方法?

我将解释:在计算与特定查询示例相关的精确性和召回性之前(参见上面),我们需要知道有多少元素属于相关集合,如果我们使用的查询没有赋值(不管是否相关),这是不可能的。我的书说,我们可以通过使用相关性反馈技术(查询扩展和术语重加权)来提高搜索引擎中的召回率:在这种情况下,我们是否假设召回值是未知的?

例如,每天都有许多文档在互联网上共享,而Google可以找到它们。因此,不可能将召回和精确应用于此场景,在这种场景中,信息不断增长,每个特定查询的每个新文档都没有估值。预测用户可以在搜索引擎上进行的所有可能查询也是不可能的。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-12-31 18:07:17

我的怀疑与以下问题有关:我们是否只有在测试IR系统时才使用这两种措施?

从技术上讲,答案是否定的,因为精确性和召回不仅用于评估IR系统,还用于评估许多其他任务。然而,您的问题似乎是特定于IR的,所以我假设它实际上是关于测试和评估之间的区别:

  • 测试ML系统包括预测作为输入的一组实例的目标变量(在有监督学习的情况下,还需要从前一阶段训练中获得的“模型”作为输入)。在这个阶段,我们不知道预测是否正确。
  • 评估是评估预测质量的过程:它是在从测试阶段获得预测之后完成的,它需要某种形式的“金本位”,即数据,它说明了每个实例的正确答案。

在IR中,每次运行系统时都会发生测试阶段,以便在查询的基础上查找相关文档。

  • 当然,首先要确保系统正常工作,并返回实际相关的文档,因此需要对系统进行评估,例如,使用包含一些查询及其相关文档的数据集(金本位)精确地对系统进行评估。
  • 一旦质量被评估,目标是使用IR系统(测试)而不每次评估结果。当然,没有评估,所以性能衡量标准(精确性和召回)是不使用的。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档