这是Aurelien的“手工机器学习与Scikit学习,Keras和TensorFlow”的引文:
“引导在每个预测器上训练的子集中引入了更多的多样性,因此套袋的偏差比粘贴稍微高一些,但这也意味着预测器最终的相关性较小,从而降低了集合的方差。”
我不明白为什么套袋,相比粘贴,导致更高的偏差和较低的差异。有人能对此提供直观的解释吗?
发布于 2020-04-12 11:15:57
假设我们有一组从1到40的40个数字。我们必须选择4个10个数字的子集。
个案1-套袋-
我们会选择第一个号码,把它放回去,然后再选择下一个。这使得所有的抽签都是独立的,因此相关性很小。
所以,如果你在前10个样本上做一棵树,在下一个样本上再做一棵树,那么这两棵树之间的相关性很小,方差也很大(更独立的分裂)。
同时,由于选择了替换的数据点,数据点将被重复使用~63%独特 参考](https://stats.stackexchange.com/a/88993/256691),这将增加单个树的偏差。
在打包的情况下,样本大小等于数据集的大小,但是我们只是创建了这个场景来比较它和粘贴。
同样的逻辑适用于具有随机特征子集的分裂,即RandomForest。
在特定特性上的拆分可能会导致关联的下一个拆分(始终如此)。因此,如果我们在每次分割之前随机选择一个特征子集,那么这将进一步降低相关性。但同样,我们会有更大的偏见。
个案2-粘贴-
在这里,由于没有替换的选择,每个样本中的数据点将是唯一的,这将导致单个树的偏差较小。
https://datascience.stackexchange.com/questions/72072
复制相似问题