首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >套袋与提升,偏差与差异,树木的深度

套袋与提升,偏差与差异,树木的深度
EN

Data Science用户
提问于 2019-10-15 13:19:59
回答 2查看 1.4K关注 0票数 5

我了解分类和回归树的包装和提升的主要原理。我怀疑的是超参数的优化,特别是树的深度。

第一个问题:为什么我们要用弱学习者来提高(高偏倚),而我们必须用深木来包装(高方差)?-老实说,我对第二个问题不确定,只是听过一次,却从未见过关于它的任何文献。

第二个问题:为什么以及如何在网格搜索中得到比弱学习者更好的梯度增强结果(同样,弱学习者也比随机森林中的更深的树)?

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-10-15 23:58:12

为什么我们应该用弱学习者来提高(高偏倚),而我们必须用深树来套袋(非常高的方差)

很明显,把一堆浅浅的树/弱的学习者包起来是没有意义的。许多坏预测的平均值仍将相当糟糕。对于许多问题,决策树桩(一棵具有单个分裂节点的树)将产生接近随机的结果。将许多随机预测结合起来通常不会产生好的结果。

另一方面,树的深度限制了特征之间的相互作用效应,例如,如果你有三个层次,你只能近似于二阶效应。对于许多(“大多数”)应用程序来说,低层次的交互效果是最重要的。哈斯蒂等人ESL (pdf)建议,6级以上的树木很少比浅树表现出改善。选择比必要更深的树只会给模型带来不必要的差异!

这也应部分解释第二个问题。如果数据中存在较强的高阶交互效应,更深层次的树可以表现得更好.然而,太深的树木将表现不佳,增加差异,而没有额外的好处。

票数 3
EN

Data Science用户

发布于 2019-10-15 22:27:34

问题1:

套袋(随机森林)只是对决策树的一种改进,决策树具有很好的特性,但是它存在过拟合(高方差),通过采集样本和构造多棵树来减小方差,对偏差的影响最小。

Boosting是一种不同的方法,我们从一个简单的低方差和高偏差的模型开始,然后依次添加新的模型来减少偏差。如果我们使用深邃的树木,我们就会面临过度适应的高风险。

问题2:

渐变增强与更深的树将允许你适应一个非常复杂的关系;较高的方差,较低的偏差。这将减少由于偏见而产生的错误。

具有浅树的随机森林具有较低的方差和较高的偏差,这将减少对过度拟合的误差。具有标准参数的随机森林可能是过度拟合的,因此减小树的深度可以提高性能。

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/61771

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档