如果我有10,000个训练样本,那我该怎么办:
引导和训练10个分类器,然后进行聚合。
或
将数据集随机分成10部分,对10个分类器进行训练,然后进行聚类。哪个会更好?
第二种方法会减少方差吗?它会比第一种方法好吗?
发布于 2018-01-11 14:50:17
我认为第二种方法会产生比第一种方法更少的关联模型。对于决策树来说尤其如此,这些树往往会在底层节点中快速地过度拟合。这将有助于减少差异。
但是,通过使用第二种方法,您将以10个较小的数据集结束,因此您可能会由于观察次数太少而引入一个方差错误。再次讨论决策树,这将意味着您的树算法将倾向于过分适合上层的树。所以你会增加你的方差误差。
在我看来,对于大多数数据集来说,使用第一种方法要比使用第二种方法更好。我认为非常低的相关估计量不会带来比第一种方法更好的改进。
我们还可以看到,这两种方法的不同也取决于观察的数量、特征的数量、所使用的估计器的种类。基准会很有趣的!
https://datascience.stackexchange.com/questions/26519
复制相似问题