首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么随机森林是决策树的一种改进?

为什么随机森林是决策树的一种改进?
EN

Data Science用户
提问于 2019-05-01 10:54:25
回答 3查看 1.7K关注 0票数 2

假设我们有一个二进制分类问题,我们在数据集上构建了一个决策树。

假设我们有5个特征,那么决策树将在第一步中选择最优的特征,并在这个特征上选择最佳的阈值来分割数据集,然后继续使树更深。best的定义是分类误差最小的。

我的问题是:既然决策树在每一步都会选择最佳的特征来分割,那么为什么随机森林(也就是许多决策树)是对决策树的改进?一个决策树不就足够了吗?

更新

我的意思是:如果你有一个decision tree classifier和一个参数相同的random forest classifier (max_depthnumber of children等),那么decision tree classifiertraining setrandom forest classifier上的得分会一样吗?

EN

回答 3

Data Science用户

发布于 2019-05-01 11:20:27

它可以归结为过度适应你的规模。决策树越长越适合。每次分割之后,下一次分割的样本将会越来越少。较少的样本意味着噪声分裂的风险增加。

随机森林避免了决策树过度拟合的问题,取而代之的是增加树的比例,而不是建一棵大树。平均森林中树木的产出意味着,如果个别的树木过度适合,那就不那么重要了。

关于你的最新消息。不,他们不会得到同样的分数。随机森林将不只是一个决策树。它有几个特征,并将每棵树的特征划分为随机子集进行训练。因此,即使随机森林中决策树的大小与单个决策树相同,它们所训练的特征也不会是这样。

但是如果你问,如果我们用一个随机的森林,只使用一棵树,并且把它训练成一个相同大小的决策树,那么是的,它们是一样的。

票数 1
EN

Data Science用户

发布于 2019-05-01 11:59:54

这是一个有趣的问题,因为随机森林比决策树更有效的原因是多方面的。我将比较每种分类器/回归器在以下每一种情况下的工作方式

  1. 因此,正如您所说的,我们有一个包含5个功能的数据集。让我们来考虑我们的决策树分类器对这些数据的过度拟合。由于模型被过度拟合,任何数据的微小变化都会导致分类的巨大变化(方差问题)。但是在RF中,由于我们在一个随机森林中使用多个决策树,任何数据的微小变化都不会引起分类上的巨大变化,因为我们要对所有的树进行多数投票才能做出决定。从而减少了过拟合(方差)问题。
  2. 如果您注意到,我们不会同时在随机林中输入整个数据集。在每个数据输入步骤中,我们都使用替换列抽样来执行行采样,这样您的模型就能够比决策树更好地泛化。
  3. 随机森林是由深度较大的决策树组成的,在学习结束时具有很大的方差,而在学习结束时则减少了方差。但是决策树,你的超参数调优,你没有固定他们的深度(也就是说,你没有说他们是浅的还是深的)。

希望这能有所帮助!

票数 0
EN

Data Science用户

发布于 2022-01-08 12:06:24

这两种算法都不会得到相同的分数,因为随机森林中的决策树在训练数据的不同子集上进行训练。

这背后的想法是群众的智慧指对一个连续数的单个预测通常比对同一个数的多个预测的均值/中值差。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/51215

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档