首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >高地图@50低精度和召回率。这意味着什么,什么指标应该更重要?

高地图@50低精度和召回率。这意味着什么,什么指标应该更重要?
EN

Stack Overflow用户
提问于 2020-07-18 19:52:58
回答 1查看 8.1K关注 0票数 4

我正在比较用于海上搜索和救援(SAR)目的的目标检测模型。从我使用的模型,我得到了最好的结果YOLOv3的改进版本的小对象检测和更快的RCNN。

对于YOLOv3,我得到了最好的mAP@50,但是为了更快的RCNN,我得到了更好的其他指标(精确性、回忆性、F1分数)。现在我想知道如何阅读它,在这种情况下哪种模式更好呢?

我想补充的是,数据集中只有两个类:小对象和大对象。我们之所以选择这个解决方案,是因为对象在类之间的区别对我们来说并不像检测任何人类起源的对象那么重要。

然而,小对象并不意味着小GT包围盒。这些物体的面积实际上很小--不到2平方米(例如人、浮标)。大型物体是指面积较大的物体(船只、船只、独木舟等)。

以下是每个类别的结果:

以及数据集中的两个样本图像(带有YOLOv3检测):

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-19 18:53:36

用于对象检测的mAP是为所有类计算的AP的平均值。mAP@0.5表示它是在IOU阈值0.5处计算的mAP。

平均精度(AP)的一般定义是在查全率曲线下求出面积.

作为模型置信阈值的函数,绘制模型的精度和召回率的过程是精确召回曲线。

精确测量你的预测有多精确。也就是说,你的预测中正确的百分比。回忆衡量你有多好发现所有的积极因素。F1评分是查全率和召回率的HM (调和均值)。

现在就回答你的问题。

如何读取它,在这种情况下哪个模型更好?

  • mAP是衡量神经网络灵敏度的一种很好的方法。因此,好的mAP表明模型在不同的置信阈值之间是稳定和一致的。在您的例子中,更快的rcnn结果表明,与Yolov3相比,精度-召回曲线度量是不好的,这意味着在较高的置信度阈值下,更快的rcnn具有很差的召回能力,或者在较低的置信阈值下,精度很差(特别是对于较小的Yolov3召回和给定置信阈值时的F1评分。我假设您运行的模型具有默认的置信阈值(可能是0.25)。因此,更高的精确度、召回率和F1评分更快的rcnn表明,在这个置信阈值下,与Yolov3.

相比,在所有3种度量指标上它都要好一些。

什么度量应该更重要?

一般来说,为了分析性能更好的模型,我建议您使用验证集(用于调优超参数的数据集)和测试集(用于评估经过充分训练的模型的性能)。

注: FP -假阳性FN -假阴性

验证集上的

  • 使用mAP在迭代/历次训练的所有权重中选择性能最好的模型(更稳定和更一致的模型)。使用mAP了解模型是否需要进一步培训/调整。

  • 检查类级AP值,以确保模型在各个类之间是稳定和良好的。

  • 按照用例/应用程序,如果您对FNs完全容忍,对FPs非常不容忍,那么就需要对模型进行相应的训练/调优,使用精确.

  • 按照用例/应用程序,如果您对FPs完全容忍,对FNs非常不容忍,那么就使用

对模型进行相应的培训/调优。

测试集上的

  • 如果您对FPs和FNs持中立态度,那么使用F1评分来评估最佳表现模型.

  • 如果FPs不为您所接受(而不关心FNs),则选择高精度

模型。

  • 如果FNs不为您所接受(不关心FPs),则选择召回率较高的

模型。

  • ,一旦您决定您应该使用的度量,对给定的模型尝试多个置信阈值(例如- 0.25、0.35和0.5),以了解所选择的置信阈值对您有利,并理解可接受的折衷范围(假设您希望精度至少达到80%和一些像样的回忆)。一旦确定了置信阈值,就可以跨不同的模型使用它来找出性能最好的模型。
票数 13
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62973155

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档