文章/答案/技术大牛

发布

社区首页 >问答首页 >套袋与提升，偏差与差异，树木的深度

问套袋与提升，偏差与差异，树木的深度
EN

Data Science用户

提问于 2019-10-15 13:19:59

回答 2查看 1.4K关注 0票数 5

我了解分类和回归树的包装和提升的主要原理。我怀疑的是超参数的优化，特别是树的深度。

第一个问题:为什么我们要用弱学习者来提高(高偏倚)，而我们必须用深木来包装(高方差)？-老实说，我对第二个问题不确定，只是听过一次，却从未见过关于它的任何文献。

第二个问题:为什么以及如何在网格搜索中得到比弱学习者更好的梯度增强结果(同样，弱学习者也比随机森林中的更深的树)？

xgboost

boosting

variance

bias

random-forest

回答 2

Data Science用户

回答已采纳

发布于 2019-10-15 23:58:12

为什么我们应该用弱学习者来提高(高偏倚)，而我们必须用深树来套袋(非常高的方差)

很明显，把一堆浅浅的树/弱的学习者包起来是没有意义的。许多坏预测的平均值仍将相当糟糕。对于许多问题，决策树桩(一棵具有单个分裂节点的树)将产生接近随机的结果。将许多随机预测结合起来通常不会产生好的结果。

另一方面，树的深度限制了特征之间的相互作用效应，例如，如果你有三个层次，你只能近似于二阶效应。对于许多(“大多数”)应用程序来说，低层次的交互效果是最重要的。哈斯蒂等人ESL (pdf)建议，6级以上的树木很少比浅树表现出改善。选择比必要更深的树只会给模型带来不必要的差异！

这也应部分解释第二个问题。如果数据中存在较强的高阶交互效应，更深层次的树可以表现得更好.然而，太深的树木将表现不佳，增加差异，而没有额外的好处。

票数 3

Data Science用户

发布于 2019-10-15 22:27:34

问题1：

套袋(随机森林)只是对决策树的一种改进，决策树具有很好的特性，但是它存在过拟合(高方差)，通过采集样本和构造多棵树来减小方差，对偏差的影响最小。

Boosting是一种不同的方法，我们从一个简单的低方差和高偏差的模型开始，然后依次添加新的模型来减少偏差。如果我们使用深邃的树木，我们就会面临过度适应的高风险。

问题2：

渐变增强与更深的树将允许你适应一个非常复杂的关系；较高的方差，较低的偏差。这将减少由于偏见而产生的错误。

具有浅树的随机森林具有较低的方差和较高的偏差，这将减少对过度拟合的误差。具有标准参数的随机森林可能是过度拟合的，因此减小树的深度可以提高性能。

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/61771

复制

相似问题

问套袋与提升，偏差与差异，树木的深度
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问套袋与提升，偏差与差异，树木的深度EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问套袋与提升，偏差与差异，树木的深度
EN