是否有一种通用的方法,可以用ROC曲线来验证一个模型?我的理解是,我们可以使用它来比较不同的阈值来确定最佳值,甚至可以看到不同的组在k折叠验证中的行为方式.,但是它需要总是比较不同的阈值。有人告诉我,我应该考虑用ROC曲线来验证我的模型(logistic回归),但它们并不意味着看分类的阈值,我一直被告知,它应该被用来验证模型之外的一般情况。
模型本身甚至不使用交叉验证,因为数据集本身相当大(总计超过一百万个条目)。我是不是漏掉了什么?
发布于 2022-11-21 18:51:02
我看到如何使用ROC曲线进行模型验证的唯一方法是检查它是否高于从45-degree到(1,1)的(0,0)线。如果曲线低于此值,那么模型所做的工作比每次预测相同的值更糟糕,而不管其特性如何。
发布于 2022-11-21 21:04:16
AUC通常是评价二进制分类器的一个较好、相对稳定的度量标准。看个别的ROC曲线就不那么多了。标准定义“ROC曲线下的区域”意味着您对二进制化阈值有更好的选择(用于在二进制决策中转换输出)。当两种型号的ROC交叉时,它变得复杂(而且有趣)。
然而,它也有一些统计解释(如果随机取一个正负样本,模型有AUC%的概率来正确排序),所以一般来说AUC越高越好。然而,如果您有一个更自然的度量(一个自然决策阈值),您应该使用它,因为因此,ROC是一个超过所有可能的阈值的度量。
发布于 2022-11-23 10:48:13
一条ROC曲线有不止一个用途,所以你说它可以用来设定一个预测阈值是对的,但是你的上级可能是想告诉你,这不是他们对中华民国的阴谋感兴趣的原因。通过检查曲线,例如它在左边上升的多陡,它离y=x对角线有多远等等,它们可以更好地评估模型的质量。因此,你应该包括一个曲线,让你的上级和可能的其他同事了解你的模型的表现,他们习惯的方式。
此外,请注意(在lcrmorin的回答中提到),我国的AUC是一个有用的统计模型评估。这是中华民国曲线下的面积。它是一个单一的数字,它总结了曲线,是一个常用的二元分类模型的性能指标。
https://datascience.stackexchange.com/questions/116366
复制相似问题