首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >何时如何使用套袋?

何时如何使用套袋?
EN

Data Science用户
提问于 2019-01-14 11:40:59
回答 1查看 142关注 0票数 2

所有类型的ML方法都能从套袋中受益吗?决策树分类似乎永远是套袋的例子,其他分类器或回归呢?

当它适合做袋,如何选择大小和数量袋?

更新:

我正在寻找一些数学上更严格的东西,例如,对于每一个模型(单个学习者),我们可以将它的总估计误差分解为:

Error^2 = Bias^2 + Variance^2 + Irreducible^2

如果我们能够粗略估计Variance和所有单个学习者的预测之间的相关性,那么我们就可以知道我们能把方差推到多低的程度。

EN

回答 1

Data Science用户

发布于 2019-01-14 13:32:53

包装的主要目标是最小化您的模型的差异。基本上,如果您有一个平均非常精确但不一致的模型(意思是,它对给定的数据集很好,泛化很差),那么套袋可能是产生更一致的估计量的一种方法。决策树是常见的例子,因为它们是典型的高方差机器学习算法。

至于你的最后一个问题,每个新的训练集的大小需要与原始训练集的大小相同。实现这一目标的方法是对原始数据集进行随机抽样并进行替换(这意味着新的数据集可能有重复数据集)。新培训集的数量取决于问题。有时100是好的,其他时候你需要1000左右。没有办法只知道你需要多少套。它是一个需要调优的参数。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/43963

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档