我需要在scikit中编写一个自定义random_selection (用于随机选择特征,即"max_feature“和训练数据的子集,即”子样本“)模块,以便与sklearn.ensemble.RandomForestClassifier和GradientBoostingClassifier一起使用。有人能举出一些例子/文档/讨论等吗?想法是在RandomForestClassifier中使用训练数据中的一列(不依赖,即Y)进行分层
发布于 2020-04-25 05:04:14
看起来你有两个主要的选择:
,,
或者2.你可以通过类别比例的倒数来加权样本(例如,如果你的数据是a,a,b,那么样本权重将是5/2,5/2,5/3,5/3,5/3或类似的东西。这样,对于该变量的每个值,对损失的总贡献是相等的。您可以通过将权重输入到model.fit(X, y, sample_weight=sample_weight)中来完成此操作。
https://stackoverflow.com/questions/61294265
复制相似问题