为什么随机分级机的ROC曲线下面积等于0.5,具有对角线形状?对我来说,随机分类器有25%的TP,TN,FP,FN,因此它只是ROC曲线上的一个点。
发布于 2018-05-20 12:47:41
前提:您前面提到的混淆矩阵只有在以下情况下才是正确的
因此,对于非常特殊的数据集,您可以导出非常特殊的随机分类器的混淆矩阵。这个非常特别的随机分类器,正如你所指出的,其实只是我国图解中的一个点。要获得整个ROC曲线,我们必须将分配正类的概率从0变到1。
所以在效果上,ROC曲线是对无限多个分类器性能的图形评价!
这些具有不同概率的随机分类器都有不同的期望混淆矩阵。
推导:这里,我导出了任意类不平衡的数据集上随机分类器的AUC。
假设正例有分数x,负例有分数1-x,分类器由随机分配概率\rho的正类和概率1-\rho的负类组成。随机分类器的混淆矩阵将具有以下预期比例
然后计算随机分类器的真阳性率(灵敏度)和假阳性率(1-特异性)。
所以你可以看到,TPR和TFR不依赖于等级比例x,这意味着中华民国也将独立于x。此外,TPR=FPR,这意味着ROC-曲线看起来像一条从(0,0)到(1,1)的直线.现在,当我们改变阈值\rho时,我们将TPR下面积0到1之间的积分计算为FPR的函数。
因此,随机分类器在ROC曲线下的面积是0.5,而不管类别比例如何。
发布于 2018-05-20 10:21:47
有几个定义:
通过改变分类器输出分数的阈值(在此之上,一个实例被划分为正,低于该值为负),计算并绘制每个阈值的真阳性率(y轴)和假阳性率(x轴)。
“随机”分类器将从0到1之间的均匀分布中抽取的分数分配给每个实例。如果选择的阈值是'x',那么得分高于'x‘的任何实例都是正的。对于每个实例(不管它实际上是正的还是负的),标记为正的概率是1-x。由于x在1和0之间变化,TPR和FPR都在0和1之间变化(在所有点上都是相等的)。因此,得到的线是x=y (对角线),在这条线下的面积可以计算为0.5。
发布于 2019-01-02 22:46:29
吉诺_JrDataScientist答案的一个简单证明:-)
假设您的计算器是参数\rho的Bernoulli随机变量,并且基于这些定义,我们将拥有:
https://datascience.stackexchange.com/questions/31872
复制相似问题