首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是评价高度不平衡的二元分类小说的最佳指标?(例如在信用卡中发现欺诈)

什么是评价高度不平衡的二元分类小说的最佳指标?(例如在信用卡中发现欺诈)
EN

Data Science用户
提问于 2020-01-05 04:04:36
回答 3查看 825关注 0票数 6

什么是评价高度不平衡的二元分类小说的最佳指标?(例如在信用卡中发现欺诈?)

我已经检查了几个指标精确召回F1标记报告(宏avg,加权avg),ROC,AUC,.但是,我不知道有什么更能让人接受来规避高度不平衡的二进制分类,比如信用卡欺诈检测https://www.kaggle.com/mlg-ulb/creditcardfraud

EN

回答 3

Data Science用户

发布于 2020-01-06 01:20:44

简单的查准率/召回/F分数非常适合不平衡的数据。当然,它应该根据少数群体的阶级来计算。

  • 精度说明在预测少数类中的实例时系统是否正确。
  • 回忆:系统检测属于少数类的实例的频率(这通常是数据不平衡时最困难的部分)。
  • 像往常一样,F分数可以作为精确性和回忆性的“汇总指标”。

ROC和AUC (它们也是基于精度/召回的)只能与软分类器一起使用,即当系统预测一个数值而不是二进制标签时。

宏观/微观/加权平均(通常超过F-分数)是不相关的:两类的平均将考虑到很容易预测的多数类,因此它将掩盖关于少数群体的有用信息。

票数 1
EN

Data Science用户

发布于 2020-01-06 03:45:46

这将取决于您正在处理的用例。假设在你使用它进行医疗诊断的医疗保健中,召回可能是优先的,因为假阴性在那里是相当有害的,但是在用例中,您提到了欺诈检测,假阳性和假阴性都可能产生可怕的影响,您可以查看f1-得分。

票数 1
EN

Data Science用户

发布于 2020-01-06 08:07:22

F1评分是我衡量模型比较的主要指标,尤其是在使用不平衡数据集评估模型时。准确性显然是不可能的,而且在阶级不平衡(1)的情况下,中华大学也是倾斜的.如果你喜欢更高的精确度或更高的召回率,你也可以在广义for评分(2)中调整beta参数,但我通常是在寻找平衡,所以在我的情况下,beta总是1。有些人也强烈推荐马修斯相关系数(MCC),尽管我没有亲自使用过它。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65886

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档