问为什么在某些情况下具有n_estimators =1的随机林的性能比决策树差
EN

Stack Overflow用户

提问于 2022-11-03 15:47:49

回答 1查看 15关注 0票数 0

为什么在某些情况下，具有n_estimators =1的随机林执行的性能比决策树差，即使在将引导设置为false之后？

尝试使用不同的机器学习模型来预测信用卡的违约率，我尝试了随机森林和决策树，但随机森林的表现似乎较差，然后尝试了只有一棵树的随机森林，因此它应该与决策树相同，但性能仍然较差。

发布于 2022-11-03 16:34:50

对您的观察的具体答案取决于您正在使用的决策树(DT)和随机森林(RF)方法的实现。尽管如此，有三个最可能的原因：

bootstrapping：虽然提到将其设置为False，但在最一般的形式中，RFs使用了两种形式的引导: dataset和特性。也许设置只控制其中之一。即使这两种方法都关闭，一些RF实现也有其他参数，这些参数控制树的每次拆分所考虑的属性数量以及它们的选择方式。

tree超级参数：与我对前一点的评论有关，要检查的另一个方面是是否所有其他的树超参数都是相同的。树的深度、每个叶节点的点数等等，所有这些都必须匹配，才能使这些方法直接可比较。

growing方法：最后，重要的是要记住，树是通过间接/启发式损失学习的，这些损失通常是贪婪地优化的。因此，有不同的算法来生长树(例如，C4.5)，DT和RF实现可能使用不同的方法。

如果所有这些都匹配，那么差异应该是很小的。如果仍然存在差异(即“在某些情况下”)，这可能是由于初始化的随机性和贪婪的学习方案导致了次优树。这是RFs的主要原因，在RFs中，集成多样性被用来缓解这些问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74305884

复制

相似问题

问为什么在某些情况下具有n_estimators =1的随机林的性能比决策树差EN