文章/答案/技术大牛

发布

社区首页 >问答首页 >集成学习中的套袋与粘贴

问集成学习中的套袋与粘贴
EN

Data Science用户

提问于 2020-04-10 08:16:04

回答 1查看 401关注 0票数 3

这是Aurelien的“手工机器学习与Scikit学习，Keras和TensorFlow”的引文：

“引导在每个预测器上训练的子集中引入了更多的多样性，因此套袋的偏差比粘贴稍微高一些，但这也意味着预测器最终的相关性较小，从而降低了集合的方差。”

我不明白为什么套袋，相比粘贴，导致更高的偏差和较低的差异。有人能对此提供直观的解释吗？

variance

bias

ensemble

bagging

machine-learning

回答 1

Data Science用户

发布于 2020-04-12 11:15:57

假设我们有一组从1到40的40个数字。我们必须选择4个10个数字的子集。

个案1-套袋-

我们会选择第一个号码，把它放回去，然后再选择下一个。这使得所有的抽签都是独立的，因此相关性很小。

所以，如果你在前10个样本上做一棵树，在下一个样本上再做一棵树，那么这两棵树之间的相关性很小，方差也很大(更独立的分裂)。

同时，由于选择了替换的数据点，数据点将被重复使用~63%独特参考](https://stats.stackexchange.com/a/88993/256691)，这将增加单个树的偏差。

在打包的情况下，样本大小等于数据集的大小，但是我们只是创建了这个场景来比较它和粘贴。

同样的逻辑适用于具有随机特征子集的分裂，即RandomForest。

在特定特性上的拆分可能会导致关联的下一个拆分(始终如此)。因此，如果我们在每次分割之前随机选择一个特征子集，那么这将进一步降低相关性。但同样，我们会有更大的偏见。

个案2-粘贴-

在这里，由于没有替换的选择，每个样本中的数据点将是唯一的，这将导致单个树的偏差较小。

票数 4

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/72072

复制

相似问题

问集成学习中的套袋与粘贴
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问集成学习中的套袋与粘贴EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问集成学习中的套袋与粘贴
EN