什么是评价高度不平衡的二元分类小说的最佳指标?(例如在信用卡中发现欺诈?)
我已经检查了几个指标精确召回F1标记报告(宏avg,加权avg),ROC,AUC,.但是,我不知道有什么更能让人接受来规避高度不平衡的二进制分类,比如信用卡欺诈检测https://www.kaggle.com/mlg-ulb/creditcardfraud。
发布于 2020-01-06 01:20:44
简单的查准率/召回/F分数非常适合不平衡的数据。当然,它应该根据少数群体的阶级来计算。
ROC和AUC (它们也是基于精度/召回的)只能与软分类器一起使用,即当系统预测一个数值而不是二进制标签时。
宏观/微观/加权平均(通常超过F-分数)是不相关的:两类的平均将考虑到很容易预测的多数类,因此它将掩盖关于少数群体的有用信息。
发布于 2020-01-06 03:45:46
这将取决于您正在处理的用例。假设在你使用它进行医疗诊断的医疗保健中,召回可能是优先的,因为假阴性在那里是相当有害的,但是在用例中,您提到了欺诈检测,假阳性和假阴性都可能产生可怕的影响,您可以查看f1-得分。
https://datascience.stackexchange.com/questions/65886
复制相似问题