大多数sklearn.ensemble型号(GradientBoostingClassifier、RandomForestClassifier等)对于集合中的估计器数量,采用n_estimators参数。如果你用X估计器训练了一个模型,你能在你的预测中使用少于X个估计器吗?这对于模型选择很有用。
例如:训练800棵树,你可能想看看400棵树模型是如何表现的。假设您有一个800棵树模型,您应该能够使用前400棵树进行预测,而不是再次训练它。
发布于 2021-05-20 14:12:12
这可以在boosting模型中完成,但是像随机森林这样的装袋模型可能没有这个选项。boosting模型中的决策树是连续的,因此使用800棵树中的前400棵树是有意义的。但是随机森林中的树是没有序列的,所以你必须随机抽样400棵树,我不认为模块提供了这一点。
发布于 2021-05-20 22:40:10
boosting模型(GradientBoostingClassifier、AdaBoostClassifier和HistGradientBoostingClassifier)都通过staged_xyz方法支持这一点。您不直接设置估计器的数量;相反,您可以获得所有部分预测,并可以提取您想要的任何一个(S)。
对于像RandomForestClassifier这样的其他工具,没有内置的支持,但您可以访问它的estimators_并自己进行预测的聚合。您还可以使用子集覆盖属性estimators_ (例如,在估计器的深层副本中),然后直接使用predict功能;我不指望在未来的版本中使用该功能,但它在0.22版本中确实可以使用。
https://stackoverflow.com/questions/67614656
复制相似问题