问评估IR系统(精确和召回)
EN

Data Science用户

提问于 2019-12-31 13:25:01

回答 1查看 241关注 0票数 3

我目前正在研究IR系统，在评估IR系统输出的具体查询方面，我需要一些帮助才能正确理解它。

我的书指出，当必须评估一个IR系统时，我们需要一个测试文档集合、一组查询示例、由该领域的专家定义的每一对查询/文档的估值(相关与否)。因此，我们需要两种方法来定量地判断一个红外系统是否良好:精确性和召回性。

我的怀疑与以下问题有关:我们是否只在测试IR系统时才使用这两种方法？

我将解释:在计算与特定查询示例相关的精确性和召回性之前(参见上面)，我们需要知道有多少元素属于相关集合，如果我们使用的查询没有赋值(不管是否相关)，这是不可能的。我的书说，我们可以通过使用相关性反馈技术(查询扩展和术语重加权)来提高搜索引擎中的召回率:在这种情况下，我们是否假设召回值是未知的？

例如，每天都有许多文档在互联网上共享，而Google可以找到它们。因此，不可能将召回和精确应用于此场景，在这种场景中，信息不断增长，每个特定查询的每个新文档都没有估值。预测用户可以在搜索引擎上进行的所有可能查询也是不可能的。

information-retrieval

回答 1

Data Science用户

回答已采纳

发布于 2019-12-31 18:07:17

我的怀疑与以下问题有关:我们是否只有在测试IR系统时才使用这两种措施？

从技术上讲，答案是否定的，因为精确性和召回不仅用于评估IR系统，还用于评估许多其他任务。然而，您的问题似乎是特定于IR的，所以我假设它实际上是关于测试和评估之间的区别：

测试ML系统包括预测作为输入的一组实例的目标变量(在有监督学习的情况下，还需要从前一阶段训练中获得的“模型”作为输入)。在这个阶段，我们不知道预测是否正确。
评估是评估预测质量的过程:它是在从测试阶段获得预测之后完成的，它需要某种形式的“金本位”，即数据，它说明了每个实例的正确答案。

在IR中，每次运行系统时都会发生测试阶段，以便在查询的基础上查找相关文档。

当然，首先要确保系统正常工作，并返回实际相关的文档，因此需要对系统进行评估，例如，使用包含一些查询及其相关文档的数据集(金本位)精确地对系统进行评估。
一旦质量被评估，目标是使用IR系统(测试)而不每次评估结果。当然，没有评估，所以性能衡量标准(精确性和召回)是不使用的。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/65663

复制

相似问题

问评估IR系统(精确和召回)
EN

我的怀疑与以下问题有关:我们是否只在测试IR系统时才使用这两种方法？

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问评估IR系统(精确和召回)EN

我的怀疑与以下问题有关:我们是否只在测试IR系统时才使用这两种方法？

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问评估IR系统(精确和召回)
EN