我正在处理的人力资源消耗数据是高度不平衡的。我使用了平衡技术,比如SMOTE来生成合成数据,然后使用高斯朴素Bayes对自然损耗进行分类。在绘制混淆矩阵之后,我发现它具有很高的精确度,但召回率却很低。准确度和F1评分(击打后)也很低。有人能建议如何提高回忆价值吗?
发布于 2020-05-11 16:22:17
你的问题不仅仅是召回价值低,你的问题是你的模型需要改进。
高精度和高度不平衡的数据集实际上意味着什么,因为简单地预测最常见的标签将获得一个非常高的准确性。
对于不平衡的类,很容易获得很高的精度,而无需实际进行有用的预测。因此,只有在类标签均匀分布的情况下,作为评估指标的准确性才有意义。
(或至少接近制服)
例如,假设您有一个癌症检测模型。你的数据集是99万张没有肿瘤迹象的图像和1万张肿瘤图像。一个简单无用的模型,可以预测“没有肿瘤”的每一张图像将得到一个难以置信的高精度99%!但召回率为0%。
相对于你的问题。想象一下,如果癌症检测模型在检测肿瘤方面真的很差,但能够在图像中发现明显的肿瘤迹象,那么它仍然是一个无用的模型,但它将设法获得99%的准确率和5%的低召回值(因为它只能检测到肿瘤的明显迹象)。这里的问题并不是我们的召回值很低。真正的主要问题是我们有一个糟糕的模型。
有关不平衡数据集的评估指标的更多信息:http://www.davidsbatista.net/blog/2018/08/19/NLP_指标/
有关如何对抗不平衡数据集的信息:https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
https://datascience.stackexchange.com/questions/73978
复制相似问题