我训练了一个CNN模型和一个组合的CNN-SVM分类模型。我想用ROC曲线来比较它们的性能,但我搞不懂哪种型号更好。如何解释给定的ROC曲线?


发布于 2019-11-24 22:42:02
如果你从曲线下的区域( AUC )听到,你会发现第一个分类器比第二个分类器更好,因为第一个曲线的AUC比第二个分类器要好。要了解更多关于AUC的信息,您可以发现这个职位很有用。
发布于 2019-11-25 10:11:47
还有一些答案暗示了对中华民国曲线的简单化解释:曲线下面积越大,模型的正、负性越好。
术语可以适用于任何两个标签,但积极和消极是最常用的。
那么中华民国的曲线是怎么画的呢?从ROC曲线可以测量模型区分两组的能力。假设模型为某些数据生成一个预测\hat{y}_i \in \mathbb{R}。基于这一预测,您应该决定将该数据标记为正的或负的。ROC曲线显示模型的假阳性率和真阳性率,取决于该阈值设置的位置。
以一个完美的模型为例,它可以将两组完全分开。将有一个可能的阈值范围t,其中所有的\hat{y}_{i \in -} < t和\hat{y}_{i\in+} > t。在这种情况下,将不会有假阳性,而所有的真阳性。中华民国的曲线将通过点(0,1)。
如果模型不完善,当两组预测有重叠时,将不存在真阳性率为1,假阳性率为0的阈值t。这意味着这条曲线不是穿过左上角,而是形成一条曲线。这条曲线下的面积显示了模型有多好,但这还不是全部。我们也可以用曲线的形状来解读模型的挣扎。
毕竟,数据可能重叠的方式不止一种。例如,如果负数组有一个很长的尾巴,它与正数重叠,这与两个相同的分布不同。
假设负数组有一个长的正尾,这样只有尾部与正组重叠。仍然有很大一部分消极的群体,我们可以正确的标签。同样,我们可以100%的捕获阳性组,代价是由于尾巴导致的假阳性率升高。这将反映在中华民国曲线的形状上。由于分类误差的这种不对称分布,ROC曲线也将是不对称的。
这是一个类似于您的第二条曲线的场景(交换两个标签)。如果这条曲线是正确的,而不是像@Erwan这样的错误说明,那么您可能正在处理的是一个相对广泛分布的组,它与另一个组部分重叠。
发布于 2019-11-25 06:19:14
ROC曲线显示正确分类为正类的项目数与标记为正但实际上为负数的项目数。
一般来说,你要选择假阳性率较高、假阳性率较低的模型,或最快收敛到1的ROC曲线,即选择第一个模型。
AUC是一个很好的方法来评估许多ROC曲线,如果它们都有相似的形状,但是当AUCs是相同的(我在实践中从未遇到过,除了可能会发生),那么中华民国曲线的形状就变得重要了。
https://datascience.stackexchange.com/questions/63699
复制相似问题