文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈)

问什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈)
EN

Data Science用户

提问于 2020-01-05 04:04:36

回答 3查看 825关注 0票数 6

什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈？)

我已经检查了几个指标精确召回F1标记报告(宏avg，加权avg)，ROC，AUC，.但是，我不知道有什么更能让人接受来规避高度不平衡的二进制分类，比如信用卡欺诈检测https://www.kaggle.com/mlg-ulb/creditcardfraud。

class-imbalance

binary

classification

回答 3

Data Science用户

发布于 2020-01-06 01:20:44

简单的查准率/召回/F分数非常适合不平衡的数据。当然，它应该根据少数群体的阶级来计算。

精度说明在预测少数类中的实例时系统是否正确。
回忆:系统检测属于少数类的实例的频率(这通常是数据不平衡时最困难的部分)。
像往常一样，F分数可以作为精确性和回忆性的“汇总指标”。

ROC和AUC (它们也是基于精度/召回的)只能与软分类器一起使用，即当系统预测一个数值而不是二进制标签时。

宏观/微观/加权平均(通常超过F-分数)是不相关的:两类的平均将考虑到很容易预测的多数类，因此它将掩盖关于少数群体的有用信息。

票数 1

Data Science用户

发布于 2020-01-06 03:45:46

这将取决于您正在处理的用例。假设在你使用它进行医疗诊断的医疗保健中，召回可能是优先的，因为假阴性在那里是相当有害的，但是在用例中，您提到了欺诈检测，假阳性和假阴性都可能产生可怕的影响，您可以查看f1-得分。

票数 1

Data Science用户

发布于 2020-01-06 08:07:22

F1评分是我衡量模型比较的主要指标，尤其是在使用不平衡数据集评估模型时。准确性显然是不可能的，而且在阶级不平衡(1)的情况下，中华大学也是倾斜的.如果你喜欢更高的精确度或更高的召回率，你也可以在广义for评分(2)中调整beta参数，但我通常是在寻找平衡，所以在我的情况下，beta总是1。有些人也强烈推荐马修斯相关系数(MCC)，尽管我没有亲自使用过它。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/65886

复制

相似问题

问什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈)
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈)EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈)
EN