首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >随机分类器的AUC-ROC

随机分类器的AUC-ROC
EN

Data Science用户
提问于 2018-05-20 06:12:02
回答 3查看 9.7K关注 0票数 9

为什么随机分级机的ROC曲线下面积等于0.5,具有对角线形状?对我来说,随机分类器有25%的TP,TN,FP,FN,因此它只是ROC曲线上的一个点。

EN

回答 3

Data Science用户

发布于 2018-05-20 12:47:41

前提:您前面提到的混淆矩阵只有在以下情况下才是正确的

  1. 数据中也有很多正面和负面的案例。
  2. 我们使用了一个随机分类器,它分配概率为0.5的正负类。

因此,对于非常特殊的数据集,您可以导出非常特殊的随机分类器的混淆矩阵。这个非常特别的随机分类器,正如你所指出的,其实只是我国图解中的一个点。要获得整个ROC曲线,我们必须将分配正类的概率从0变到1。

所以在效果上,ROC曲线是对无限多个分类器性能的图形评价!

这些具有不同概率的随机分类器都有不同的期望混淆矩阵。

推导:这里,我导出了任意类不平衡的数据集上随机分类器的AUC。

假设正例有分数x,负例有分数1-x,分类器由随机分配概率\rho的正类和概率1-\rho的负类组成。随机分类器的混淆矩阵将具有以下预期比例

TP = \rho x \\ FP = \rho (1-x) \\ FN = (1-\rho)x \\ TN = (1-\rho)(1-x)

然后计算随机分类器的真阳性率(灵敏度)和假阳性率(1-特异性)。

TPR=\frac{TP}{TP+FN}=\frac{\rho x}{\rho x + (1-\rho)x}=\rho\\ FPR=\frac{FP}{TN+FP}=\frac{\rho(1-x)}{\rho(1-x)+(1-\rho)(1-x)}=\rho

所以你可以看到,TPR和TFR不依赖于等级比例x,这意味着中华民国也将独立于x。此外,TPR=FPR,这意味着ROC-曲线看起来像一条从(0,0)到(1,1)的直线.现在,当我们改变阈值\rho时,我们将TPR下面积0到1之间的积分计算为FPR的函数。

AUC=\int_0^1 \rho d\rho' = \frac{\rho'^2}{2}|_0^1 = 1/2

因此,随机分类器在ROC曲线下的面积是0.5,而不管类别比例如何。

票数 20
EN

Data Science用户

发布于 2018-05-20 10:21:47

有几个定义:

  • 真阳性率(TPR):阳性标记为阳性的概率。
  • 假阳性率:阴性标记为阳性的概率

通过改变分类器输出分数的阈值(在此之上,一个实例被划分为正,低于该值为负),计算并绘制每个阈值的真阳性率(y轴)和假阳性率(x轴)。

“随机”分类器将从0到1之间的均匀分布中抽取的分数分配给每个实例。如果选择的阈值是'x',那么得分高于'x‘的任何实例都是正的。对于每个实例(不管它实际上是正的还是负的),标记为正的概率是1-x。由于x在1和0之间变化,TPR和FPR都在0和1之间变化(在所有点上都是相等的)。因此,得到的线是x=y (对角线),在这条线下的面积可以计算为0.5。

票数 2
EN

Data Science用户

发布于 2019-01-02 22:46:29

吉诺_JrDataScientist答案的一个简单证明:-)

假设您的计算器是参数\rho的Bernoulli随机变量,并且基于这些定义,我们将拥有:

TPR=\frac{TP}{P}=\frac{\rho \, P}{P}=\rho\\ FPR=\frac{FP}{N}=\frac{\rho \, N}{N}=\rho \\ AUC=\int_0^1 \rho \, d\rho = \frac{1}{2}\rho^2 \big\rvert_0^1 = \frac{1}{2}
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/31872

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档