文章/答案/技术大牛

发布

社区首页 >问答首页 >roc_auc_score()和auc()的不同结果

问roc_auc_score()和auc()的不同结果
EN

Stack Overflow用户

提问于 2015-07-01 18:48:14

回答 3查看 70.3K关注 0票数 68

我很难理解roc_auc_score()和auc()在scikit-learn中的区别(如果有区别的话)。

我正在预测具有不平衡类的二进制输出(对于Y=1，大约1.5% )。

分类器

model_logit = LogisticRegression(class_weight='auto')
model_logit.fit(X_train_ridge, Y_train)

Roc曲线

false_positive_rate, true_positive_rate, thresholds = roc_curve(Y_test, clf.predict_proba(xtest)[:,1])

AUC的

auc(false_positive_rate, true_positive_rate)
Out[490]: 0.82338034042531527

和

roc_auc_score(Y_test, clf.predict(xtest))
Out[493]: 0.75944737191205602

有没有人能解释这种差异？我以为两者都只是在计算ROC曲线下的面积。可能是因为数据集不平衡，但我不知道为什么。

谢谢!

python

machine-learning

scikit-learn

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-07-01 20:20:03

AUC并不总是ROC曲线的曲线下面积。曲线下面积是一些曲线下的(抽象)区域，因此它是比更一般的东西。对于不平衡的类，找到精确召回曲线的AUC可能会更好。

请参阅roc_auc_score的sklearn源代码

def roc_auc_score(y_true, y_score, average="macro", sample_weight=None):
    # <...> docstring <...>
    def _binary_roc_auc_score(y_true, y_score, sample_weight=None):
            # <...> bla-bla <...>

            fpr, tpr, tresholds = roc_curve(y_true, y_score,
                                            sample_weight=sample_weight)
            return auc(fpr, tpr, reorder=True)

    return _average_binary_score(
        _binary_roc_auc_score, y_true, y_score, average,
        sample_weight=sample_weight)

正如您所看到的，这首先会得到一条roc曲线，然后调用auc()来获取面积。

我猜你的问题是predict_proba()调用。对于普通的predict()，输出总是相同的：

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc, roc_auc_score

est = LogisticRegression(class_weight='auto')
X = np.random.rand(10, 2)
y = np.random.randint(2, size=10)
est.fit(X, y)

false_positive_rate, true_positive_rate, thresholds = roc_curve(y, est.predict(X))
print auc(false_positive_rate, true_positive_rate)
# 0.857142857143
print roc_auc_score(y, est.predict(X))
# 0.857142857143

如果更改上面的设置，有时会得到不同的输出：

false_positive_rate, true_positive_rate, thresholds = roc_curve(y, est.predict_proba(X)[:,1])
# may differ
print auc(false_positive_rate, true_positive_rate)
print roc_auc_score(y, est.predict(X))

票数 55

Stack Overflow用户

发布于 2015-07-02 02:56:04

predict只返回一个或另一个类。然后在分类器上使用predict的结果计算ROC值，只有三个阈值(尝试所有一个类，微不足道的所有其他类，以及介于两者之间)。ROC曲线如下所示：

      ..............................
      |
      |
      |
......|
|
|
|
|
|
|
|
|
|
|
|

同时，predict_proba()返回整个概率范围，所以现在您可以对数据设置三个以上的阈值。

             .......................
             |
             |
             |
          ...|
          |
          |
     .....|
     |
     |
 ....|
.|
|
|
|
|

因此，不同的领域。

票数 28

Stack Overflow用户

发布于 2016-03-17 04:14:48

当您使用y_pred (类标签)时，您已经决定了阈值。当你使用y_prob (正类概率)时，你对阈值是开放的，ROC曲线应该帮助你决定阈值。

对于第一种情况，您使用的是概率：

y_probs = clf.predict_proba(xtest)[:,1]
fp_rate, tp_rate, thresholds = roc_curve(y_true, y_probs)
auc(fp_rate, tp_rate)

当你这样做的时候，你是在“决定”你将使用的阈值之前考虑AUC。

在第二种情况下，您使用的是预测(而不是概率)，在这种情况下，使用'predict‘而不是'predict_proba’作为两者，您应该得到相同的结果。

y_pred = clf.predict(xtest)
fp_rate, tp_rate, thresholds = roc_curve(y_true, y_pred)
print auc(fp_rate, tp_rate)
# 0.857142857143

print roc_auc_score(y, y_pred)
# 0.857142857143

票数 16

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31159157

复制

相似问题

问roc_auc_score()和auc()的不同结果
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问roc_auc_score()和auc()的不同结果EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问roc_auc_score()和auc()的不同结果
EN