首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >集成学习中的套袋与粘贴

集成学习中的套袋与粘贴
EN

Data Science用户
提问于 2020-04-10 08:16:04
回答 1查看 401关注 0票数 3

这是Aurelien的“手工机器学习与Scikit学习,Keras和TensorFlow”的引文:

“引导在每个预测器上训练的子集中引入了更多的多样性,因此套袋的偏差比粘贴稍微高一些,但这也意味着预测器最终的相关性较小,从而降低了集合的方差。”

我不明白为什么套袋,相比粘贴,导致更高的偏差和较低的差异。有人能对此提供直观的解释吗?

EN

回答 1

Data Science用户

发布于 2020-04-12 11:15:57

假设我们有一组从1到40的40个数字。我们必须选择4个10个数字的子集。

个案1-套袋-

我们会选择第一个号码,把它放回去,然后再选择下一个。这使得所有的抽签都是独立的,因此相关性很小。

所以,如果你在前10个样本上做一棵树,在下一个样本上再做一棵树,那么这两棵树之间的相关性很小,方差也很大(更独立的分裂)。

同时,由于选择了替换的数据点,数据点将被重复使用~63%独特 参考](https://stats.stackexchange.com/a/88993/256691),这将增加单个树的偏差。

在打包的情况下,样本大小等于数据集的大小,但是我们只是创建了这个场景来比较它和粘贴。

同样的逻辑适用于具有随机特征子集的分裂,即RandomForest。

在特定特性上的拆分可能会导致关联的下一个拆分(始终如此)。因此,如果我们在每次分割之前随机选择一个特征子集,那么这将进一步降低相关性。但同样,我们会有更大的偏见。

个案2-粘贴-

在这里,由于没有替换的选择,每个样本中的数据点将是唯一的,这将导致单个树的偏差较小。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/72072

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档