文章/答案/技术大牛

发布

社区首页 >问答首页 >信息检索系统的评价指标

问信息检索系统的评价指标
EN

Data Science用户

提问于 2020-12-07 12:12:47

回答 1查看 229关注 0票数 3

我目前正在阅读亚马逊( Amazon )发表的语义产品搜索论文。它们使用两个评估子任务进行匹配和排序。在匹配中，他们调整模型的超参数，以最大限度地召回@100和平均精度(MAP)。

根据信息检索导论的说法，精度(P)是检索到的相关文档的一部分：

relevant (R)是检索到的相关文档的一部分：

如果没有，我想知道如何找出基本真理(相关标签)？换句话说，如果我想计算语义产品搜索的精确性或回忆性，如果我们没有可用于输入产品查询的关联标签的话。在这种情况下，研究人员是如何计算精确性和回忆的？或者它们是如何产生的？

nlp

model-evaluations

information-retrieval

semantic-similarity

回答 1

Data Science用户

发布于 2020-12-07 23:05:46

如果没有，我想知道如何找出基本真理(相关标签)？

如果没有人知道输出应该是什么，那么就无法正确地评估系统。然而，有一些方法可以解决缺乏注释数据的问题：

要求一组注释者对样本上的输出质量进行分级。缺点:如果从未预测过相关实例，注释者不太可能注意到它。
将输出与最先进的系统状态进行比较。缺点:评估系统只能和参考系统一样好，参考系统的任何错误都被认为是正确的。
用自动方法生成人工数据。缺点:评价依赖于人工数据的质量，因此在理论上必须证明人工数据与实际数据一样好。这通常比实际收集实际数据要困难。

在这种情况下，研究人员是如何计算精确性和回忆的？或者它们是如何产生的？

他们不能。这就像在不知道正确答案的情况下给试卷评分一样。

这就是为什么基准数据集对研究界如此重要，并作为适当的科学贡献出版的原因。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/86361

复制

相似问题

问信息检索系统的评价指标
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问信息检索系统的评价指标EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问信息检索系统的评价指标
EN