我在经营随机森林的时候遇到了一个问题。我使用"V1“、"V2”、"V3“来预测随机森林的二进制结果(1:病态;0:否)。
我得到了一个很高的准确性分数(99%),但是,当我检查混淆矩阵时,发现没有一个病人被发现在测试数据集中(占整个数据集的30%)。以下是混淆矩阵:
[856 0
9 0]
这一结果意味着9个人中有0人被诊断为生病,这引起了我的注意。也许是因为数据集不平衡(很少生病的人)?
我想看看是否有其他方法来检测生病的人,而不是高准确率,这意味着它有更高的假阳性率,但我想捕获所有9个(真阳性)个人。
谢谢!
发布于 2017-03-23 17:51:19
使用类重,对体重错误,使“不正确地给病人贴上健康标签”比“错误地将一个健康的人贴上标签”更受惩罚。或者查找处理阶级不平衡的任何其他标准技术。
https://datascience.stackexchange.com/questions/17783
复制相似问题