问使用随机森林学习不平衡数据(罕见疾病)
EN

Data Science用户

提问于 2017-03-22 22:22:49

回答 1查看 460关注 0票数 3

我在经营随机森林的时候遇到了一个问题。我使用"V1“、"V2”、"V3“来预测随机森林的二进制结果(1:病态；0:否)。

我得到了一个很高的准确性分数(99%)，但是，当我检查混淆矩阵时，发现没有一个病人被发现在测试数据集中(占整个数据集的30%)。以下是混淆矩阵：

[856 0

9 0]

这一结果意味着9个人中有0人被诊断为生病，这引起了我的注意。也许是因为数据集不平衡(很少生病的人)？

我想看看是否有其他方法来检测生病的人，而不是高准确率，这意味着它有更高的假阳性率，但我想捕获所有9个(真阳性)个人。

谢谢!

回答已采纳

发布于 2017-03-23 17:51:19

使用类重，对体重错误，使“不正确地给病人贴上健康标签”比“错误地将一个健康的人贴上标签”更受惩罚。或者查找处理阶级不平衡的任何其他标准技术。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/17783

复制

相似问题

问使用随机森林学习不平衡数据(罕见疾病)EN