假设我们有一个二进制分类问题,我们在数据集上构建了一个决策树。
假设我们有5个特征,那么决策树将在第一步中选择最优的特征,并在这个特征上选择最佳的阈值来分割数据集,然后继续使树更深。best的定义是分类误差最小的。
我的问题是:既然决策树在每一步都会选择最佳的特征来分割,那么为什么随机森林(也就是许多决策树)是对决策树的改进?一个决策树不就足够了吗?
我的意思是:如果你有一个decision tree classifier和一个参数相同的random forest classifier (max_depth,number of children等),那么decision tree classifier在training set和random forest classifier上的得分会一样吗?
发布于 2019-05-01 11:20:27
它可以归结为过度适应你的规模。决策树越长越适合。每次分割之后,下一次分割的样本将会越来越少。较少的样本意味着噪声分裂的风险增加。
随机森林避免了决策树过度拟合的问题,取而代之的是增加树的比例,而不是建一棵大树。平均森林中树木的产出意味着,如果个别的树木过度适合,那就不那么重要了。
关于你的最新消息。不,他们不会得到同样的分数。随机森林将不只是一个决策树。它有几个特征,并将每棵树的特征划分为随机子集进行训练。因此,即使随机森林中决策树的大小与单个决策树相同,它们所训练的特征也不会是这样。
但是如果你问,如果我们用一个随机的森林,只使用一棵树,并且把它训练成一个相同大小的决策树,那么是的,它们是一样的。
发布于 2019-05-01 11:59:54
这是一个有趣的问题,因为随机森林比决策树更有效的原因是多方面的。我将比较每种分类器/回归器在以下每一种情况下的工作方式
希望这能有所帮助!
发布于 2022-01-08 12:06:24
这两种算法都不会得到相同的分数,因为随机森林中的决策树在训练数据的不同子集上进行训练。。
这背后的想法是群众的智慧指对一个连续数的单个预测通常比对同一个数的多个预测的均值/中值差。
https://datascience.stackexchange.com/questions/51215
复制相似问题