首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >信息检索系统的评价指标

信息检索系统的评价指标
EN

Data Science用户
提问于 2020-12-07 12:12:47
回答 1查看 229关注 0票数 3

我目前正在阅读亚马逊( Amazon )发表的语义产品搜索论文。它们使用两个评估子任务进行匹配和排序。在匹配中,他们调整模型的超参数,以最大限度地召回@100和平均精度(MAP)。

根据信息检索导论的说法,精度(P)是检索到的相关文档的一部分:

relevant (R)是检索到的相关文档的一部分:

如果没有,我想知道如何找出基本真理(相关标签)?换句话说,如果我想计算语义产品搜索的精确性或回忆性,如果我们没有可用于输入产品查询的关联标签的话。在这种情况下,研究人员是如何计算精确性和回忆的?或者它们是如何产生的?

EN

回答 1

Data Science用户

发布于 2020-12-07 23:05:46

如果没有,我想知道如何找出基本真理(相关标签)?

如果没有人知道输出应该是什么,那么就无法正确地评估系统。然而,有一些方法可以解决缺乏注释数据的问题:

  • 要求一组注释者对样本上的输出质量进行分级。缺点:如果从未预测过相关实例,注释者不太可能注意到它。
  • 将输出与最先进的系统状态进行比较。缺点:评估系统只能和参考系统一样好,参考系统的任何错误都被认为是正确的。
  • 用自动方法生成人工数据。缺点:评价依赖于人工数据的质量,因此在理论上必须证明人工数据与实际数据一样好。这通常比实际收集实际数据要困难。

在这种情况下,研究人员是如何计算精确性和回忆的?或者它们是如何产生的?

他们不能。这就像在不知道正确答案的情况下给试卷评分一样。

这就是为什么基准数据集对研究界如此重要,并作为适当的科学贡献出版的原因。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/86361

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档