为了检验我的多标签分类模型的结果,我测量了精度、回忆和F1分数。我想比较两种不同的结果,Macro。我有一个只有几行的数据集,但标签计数在1700左右。为什么宏如此之低,即使我在微观上得到了很高的结果,当它是一个多类的时候,哪一个会更有用呢?
Accuracy: 0.743999
Micro Precision: 0.743999
Macro Precision: 0.256570
Micro Recall: 0.743999
Macro Recall: 0.264402
Micro F1 score: 0.743999
Macro F1 score: 0.250033
Cohens kappa: 0.739876发布于 2021-08-09 09:02:27
微平均
从模型的真阳性(TPs)、真阴性(TNs)、假阳性(FPs)和假阴性(FNs)计算出微观平均查全率和召回分数。
宏观平均
将宏观平均查全率和召回分数计算为个别班级的查全率和召回分数的算术均值。宏观平均F1分数计算为个别班级F1分数的算术平均值。
多级分类的微观平均和宏观平均精度分数
对于多类分类问题,micro-average精度分数可以定义为所有类的真正和除以所有的正预测。正预测是所有真阳性和假阳性之和。
多级分类的微观平均和宏观平均回忆分数
对于多类分类问题,micro-average召回分数可以定义为所有类的真正和除以实际正项(而不是预测的正项)。
参考资料:
https://stackoverflow.com/questions/68708610
复制相似问题