首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是AUC - ROC曲线?

什么是AUC - ROC曲线?
EN

Data Science用户
提问于 2019-12-21 09:31:34
回答 3查看 354关注 0票数 2

AUC - ROC曲线是对不同阈值设置下的分类问题的性能度量.ROC是一条概率曲线,AUC代表可分性的程度或尺度。

Roc和AUC一样吗?

EN

回答 3

Data Science用户

发布于 2019-12-21 13:57:28

相关概念,但不尽相同。

ROC-接收机工作曲线

曲线下

AUC面积

感谢这篇文章的解释

缩略语

AUC大部分时间用于表示AUROC,这是一种糟糕的做法,因为正如Marc指出的,AUC是模棱两可的(可能是任何曲线),而AUROC则不是。

解释

AUROC有几种等价的解释

  • 一致画的随机正的期望排在一致画的随机负之前。
  • 正数的预期比例排在均匀绘制的随机负数之前。
  • 如果排名在均匀绘制的随机负数之前被分割,那么期望的真实阳性率。
  • 负数的预期比例排在一致绘制的随机正数之后。
  • 期望的假阳性率,如果排名被分割,就在一致绘制的随机正数之后。

更进一步:如何推导出AUROC的概率解释?

计算AUROC

假设我们有一个概率的,二进制分类器,如logistic回归。

在给出ROC曲线(=接收机工作特性曲线)之前,必须先理解混淆矩阵的概念。当我们进行二进制预测时,可以有4种结果:

  • 我们预测0,而真正的类实际上是0:这被称为真负,也就是说,我们正确地预测这个类是负(0)。例如,防病毒不会检测到无害的文件是病毒。
  • 我们预测0,而真正的类实际上是1:这被称为假负,也就是说,我们错误地预测这个类是负(0)。例如,防病毒无法检测到病毒。
  • 我们预测1,而真正的类实际上是0:这被称为假阳性,也就是说,我们错误地预测这个类是正的(1)。例如,防病毒将无害文件视为病毒。
  • 我们预测1,而真正的类实际上是1:这叫做真正,也就是说,我们正确地预测了这个类是正的(1)。例如,反病毒正确地检测到了病毒。

为了得到混淆矩阵,我们检查了模型所做的所有预测,并计算了这4种结果中每种结果发生了多少次:

在这个混淆矩阵的例子中,在50个被分类的数据点中,45个被正确分类,5个被错误分类。

由于为了比较两种不同的模型,通常有一个度量而不是多个度量更方便,因此我们从混淆矩阵中计算两个度量,稍后我们将将其合并为一个:

  • 真阳性率,又名.灵敏度、命中率召回,定义为\frac{TP}{TP+FN}。从直觉上说,这个度量对应于对于所有正数据点正确被认为是正的正数据点的比例。换句话说,TPR越高,我们错过的正面数据点就越少。
  • 假阳性率 (FPR),又名倾覆,它被定义为\frac{FP}{FP+TN}。从直觉上看,这个指标对应于所有负数据点中被错误认为为正的负数据点的比例。换句话说,FPR越高,负面数据点就越容易被错误分类。

为了将FPR和TPR合并为一个度量,我们首先计算多个不同阈值(例如0.00; 0.01, 0.02, \dots, 1.00)的前两个度量来进行logistic回归,然后将它们绘制在一个图上,用横坐标上的FPR值和纵坐标上的TPR值来绘制。得到的曲线称为ROC曲线,我们考虑的度量是这条曲线的AUC,我们称之为AUROC。

下图以图形方式显示AUROC:

在这个图中,蓝色区域对应于接收机工作特性(AUROC)曲线下的区域。在对角线上的虚线,我们给出了随机预测器的ROC曲线:它的AUROC为0.5。随机预测器通常用作基线,以查看模型是否有用。

如果你想得到一些第一手的经验:

  • Python:http://scikit-learn.org/stable/auto_实例/模型_选择/地块_roc.html
  • MATLAB:http://www.mathworks.com/help/stats/perfcurve.html
票数 4
EN

Data Science用户

发布于 2019-12-22 02:47:24

没有AUC和中华民国是两件不同的事情。

AUC代表“曲线下的面积”。ROC代表“接收机工作特性曲线”。

ROC是一种度量,它给出一个值来量化给定阈值的分类模型的性能。例如,你可以选择0.5作为猫对狗分类器的阈值。如果不知道阈值,则在x轴上绘制带有阈值的图,在y轴上绘制ROC度量。

这种曲线下的面积(AUC)就是所谓的AUROC!AUC不仅限于中华民国。它也可以用于其他指标,如精确-召回曲线。

票数 1
EN

Data Science用户

发布于 2023-01-25 11:34:32

来自这个职位

这是一部关于建设中华民国曲线的动画,所以是AUC。可以清楚地看到,ROC曲线的每个点都来自一个不同的阈值,用于对二进制分类器的输出进行分类。阈值定义哪些样本被预测为1,哪些样本预测为0。然后计算真阳性率和假阳性率。在每个阈值对应一个点的ROC曲线。

注意:动画可能更适合于时间序列的工作人员,但也可以帮助理解在其他情况下的Sample结构,二进制分类器的输入可以是任何东西(图像、时间-意境窗口、输入特性、.)

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65228

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档