问何时如何使用套袋？
EN

Data Science用户

提问于 2019-01-14 11:40:59

回答 1查看 142关注 0票数 2

所有类型的ML方法都能从套袋中受益吗？决策树分类似乎永远是套袋的例子，其他分类器或回归呢？

当它适合做袋，如何选择大小和数量袋？

更新：

我正在寻找一些数学上更严格的东西，例如，对于每一个模型(单个学习者)，我们可以将它的总估计误差分解为：

Error^2 = Bias^2 + Variance^2 + Irreducible^2

如果我们能够粗略估计Variance和所有单个学习者的预测之间的相关性，那么我们就可以知道我们能把方差推到多低的程度。

发布于 2019-01-14 13:32:53

包装的主要目标是最小化您的模型的差异。基本上，如果您有一个平均非常精确但不一致的模型(意思是，它对给定的数据集很好，泛化很差)，那么套袋可能是产生更一致的估计量的一种方法。决策树是常见的例子，因为它们是典型的高方差机器学习算法。

至于你的最后一个问题，每个新的训练集的大小需要与原始训练集的大小相同。实现这一目标的方法是对原始数据集进行随机抽样并进行替换(这意味着新的数据集可能有重复数据集)。新培训集的数量取决于问题。有时100是好的，其他时候你需要1000左右。没有办法只知道你需要多少套。它是一个需要调优的参数。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/43963

复制

相似问题