我正在一个极不平衡的数据集( 1:10 000的比例)上应用ScikitLearn的随机森林。我可以使用类_weigth=‘balanced’参数。我看过,这相当于抽样过少。
然而,这种方法似乎适用于样本的权重,不改变实际的样本数。
由于随机森林的每一棵树都是建立在训练集的随机抽取子样本上的,所以恐怕每个子样本中少数类的代表性不够(或者根本没有代表性)。这是真的吗?这将导致非常有偏见的树木。
因此,我的问题是:class_weight=“平衡”参数是否允许在极不平衡的数据集上构建合理的无偏随机森林模型,还是应该在每棵树上或在构建培训集时找到一种方法来对大多数类进行欠采样?
发布于 2017-04-19 22:51:44
我认为你可以在+-10000样本中分割多数类,并使用每个样本和少数类的相同点来训练相同的模型。
https://stackoverflow.com/questions/43414689
复制相似问题