据我所知,随机森林是树木套袋的程式化版本。我们选择随机数据点和随机特征来构造随机森林。
但是,如果我们只使用普通版本的套袋,只随机选择数据点,那么我们就有了树,它们已经训练了更多的特征,不像样式化版本中的随机森林。由于学习具有更多的特征,每个个体树都有更多关于数据点的信息,因此在某种意义上比随机森林中的个体树更“智能”。
那么,为什么使用套袋的程式化版本的随机森林比使用普通套袋实现的随机森林表现更好呢?
我知道,使用样式化版本的随机森林提供了一个更低的方差模型,但是由于每个树都接受了一些特性的训练,难道不应该让模型偏高一点吗?
发布于 2017-07-11 16:25:19
随机森林的思想基本上是建立许多决策树(或其他弱学习者),这些决策树是不相关的,因此它们的平均值不太容易过度拟合(降低方差)。一种方法是对训练集进行二次抽样。次采样特征能够进一步去相关树的原因是,如果有很少的主导特征,即使在不同的子样本中,这些特征也会在许多树中被选择,使森林中的树再次相似(相关)。
样本数越少,去相关效应越大。另一方面,随机森林的偏差与任何抽样树的偏差相同(见统计学习的元素),但随机森林的随机性限制了模型,因此偏差通常高于完全生长的(未修剪的)树。你是正确的,因为你可以期待一个更高的偏见,如果你样本较少的特点。因此,“功能套袋”确实给了你一个经典的偏倚和方差的权衡。
发布于 2017-07-11 11:55:12
我的直觉是,在所有变量的子集上对每一棵树进行培训有助于使用不太有用的变量。由于通常有一些与目标高度相关的特征,所以所有的树都会使用这些非常好的特征,永远不会使用那些弱的特征。通过对随机子集的处理,有时会使用弱特征,对结果贡献不大。
https://datascience.stackexchange.com/questions/20304
复制相似问题