因为在信息检索的成功计算中,查准率与召回是相当标准的度量,分别关系到结果的准确性和结果的综合程度。
但是,回忆值通常要求您知道总共有多少正确的结果(以便能够说明这些结果返回到了多大程度)。当然,这是有问题的,如果你不知道有多少正确的结果在第一。
但假设你有x个结果。您不知道它们与可能返回的正确文档的绝对数量有什么关系,但您确实知道这些结果有多准确。您可以提高这一准确性,但您将失去一些正确的结果在过程中。你可以排除所有的结果,从x栏一,并确保你有100%的准确性,但显然已经有一个戏剧性的下降在相对召回通过这一行动。但是,当你不知道在这个环境中召回的绝对值是什么的时候,与这种“相对回忆”相关的技术上正确的术语是什么?有这样的术语吗?
例如,假设您正在开发一个IR系统,以返回与“使命召唤”电子游戏专营权相关的文章,它将给您以下结果
现在,您不知道正确文章的绝对数量是多少:但是您确实知道您的IR系统生成的数据集中的数量。以上的准确率为42.85%,相对召回率为100%。削减的清单
具有66.66%的精确度,但以牺牲一篇正确的文章为代价,从而影响“召回”。那么,这个所谓的召回的正确术语是什么呢?
发布于 2016-05-21 10:54:54
在红外系统得到的X结果中,TP、FP、FN、TN分别是试验的真阳性、假阳性、假阴性和真阴性。当你取一个随机的小样本S的x观测(用你的语言削减列表),值TP和FP降低(p和q)在各自的比率。这是由数值FN和TN中的比例增加(p和q)来补偿的,从而保留了二进制类的实际数量。
TP + FN = (TP - p) + (FN + p)
FP + TN = (FP - q) + (TN + q)
x = TP + FP, s = (TP - p) + (FP - q)对于一个好的分类器,TP >>> FP。因此,已经最小的FP (在新样本中)的减少,导致了精度的提高。现在,您的“相对回忆”概念出现了,在本例中可以表示为
(TP - p)/(TP+FN + p)其中TP充当新样本的实际真实观测(地面-真相)。注意: FN是不知道的,因为地面真相标签是不可用的.
召回率的下降是由类型-2错误引起的,它是FN比率(在实际情况下没有将链接报告为使命召唤),也表示β(beta)。因此,召回率(相对召回率)的下降归因于误差率(失语率)的上升,因为
Recall = 1 - FN Ratehttps://datascience.stackexchange.com/questions/11847
复制相似问题