所有类型的ML方法都能从套袋中受益吗?决策树分类似乎永远是套袋的例子,其他分类器或回归呢?
当它适合做袋,如何选择大小和数量袋?
我正在寻找一些数学上更严格的东西,例如,对于每一个模型(单个学习者),我们可以将它的总估计误差分解为:
如果我们能够粗略估计Variance和所有单个学习者的预测之间的相关性,那么我们就可以知道我们能把方差推到多低的程度。
发布于 2019-01-14 13:32:53
包装的主要目标是最小化您的模型的差异。基本上,如果您有一个平均非常精确但不一致的模型(意思是,它对给定的数据集很好,泛化很差),那么套袋可能是产生更一致的估计量的一种方法。决策树是常见的例子,因为它们是典型的高方差机器学习算法。
至于你的最后一个问题,每个新的训练集的大小需要与原始训练集的大小相同。实现这一目标的方法是对原始数据集进行随机抽样并进行替换(这意味着新的数据集可能有重复数据集)。新培训集的数量取决于问题。有时100是好的,其他时候你需要1000左右。没有办法只知道你需要多少套。它是一个需要调优的参数。
https://datascience.stackexchange.com/questions/43963
复制相似问题