文章/答案/技术大牛

发布

问机器学习中的评价指标
EN

Stack Overflow用户

提问于 2016-10-20 11:29:25

回答 2查看 523关注 0票数 1

下面以一个二分类问题为例，如果我在训练中使用“准确性”作为度量标准，并使用ROCR包找到AUC分数，这将是如何逻辑的？或者我应该始终使用"ROC“作为计算AUC分数的度量标准？数据集不平衡。

control <- trainControl(method="cv", number=5)

fit <- train(diabetes~., data=PimaIndiansDiabetes, method="gbm", metric="Accuracy", trControl=control)

machine-learning

classification

data-mining

回答 2

Stack Overflow用户

发布于 2016-10-20 12:03:21

为了评估任何分类器的性能，最基本的度量/基准是混淆矩阵，因为准确性、精度、召回率、F-measure、ROC和AUC都来自混淆矩阵。问到你的问题，作为性能指标的准确性是否足以判断一个二进制分类器？答案是“是的”，只有当数据分布是balanced时，即1类和2类对象的数量相等。但是，如果数据不平衡(就像您的情况一样)，那么使用准确性作为关键性能度量是一个很大的，没有。要揭穿准确性的吸引力/谬误，一个简单的例子是:考虑*电话公司想要检查它生产的有缺陷手机的数量。现在，平均每1000个电话中有10个坏电话，并且构建的分类器从未在它采样的1000个电话中捕获到一个有缺陷/坏电话，那么当TP = 990，TN =0和准确性=TP+TN/1000时，分类器的准确率仍为99%。因此，最好的或至少是评估绩效的基准是每个班级的F-score，从那里可以将其带入下一阶段的ROC曲线绘制和AUC评估。

票数 1

Stack Overflow用户

发布于 2019-07-09 14:24:15

我认为如果你想使用准确性，那么你应该首先使用像上采样或下采样这样的技术来平衡你的数据集。在可解释性方面，AUC比准确性更好。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40144950

复制

相似问题

问机器学习中的评价指标
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习中的评价指标EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习中的评价指标
EN