问欠采样与class_weight在ScikitLearn随机林中的应用
EN

Stack Overflow用户

提问于 2017-04-14 15:33:22

回答 1查看 954关注 0票数 3

我正在一个极不平衡的数据集( 1:10 000的比例)上应用ScikitLearn的随机森林。我可以使用类_weigth=‘balanced’参数。我看过，这相当于抽样过少。

然而，这种方法似乎适用于样本的权重，不改变实际的样本数。

由于随机森林的每一棵树都是建立在训练集的随机抽取子样本上的，所以恐怕每个子样本中少数类的代表性不够(或者根本没有代表性)。这是真的吗？这将导致非常有偏见的树木。

因此，我的问题是:class_weight=“平衡”参数是否允许在极不平衡的数据集上构建合理的无偏随机森林模型，还是应该在每棵树上或在构建培训集时找到一种方法来对大多数类进行欠采样？

回答已采纳

发布于 2017-04-19 22:51:44

我认为你可以在+-10000样本中分割多数类，并使用每个样本和少数类的相同点来训练相同的模型。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43414689

复制

相似问题

问欠采样与class_weight在ScikitLearn随机林中的应用EN