文章/答案/技术大牛

发布

社区首页 >问答首页 >引导数据集还是随机分割数据集以减少方差？

问引导数据集还是随机分割数据集以减少方差？
EN

Data Science用户

提问于 2018-01-11 12:21:11

回答 1查看 115关注 0票数 3

如果我有10,000个训练样本，那我该怎么办：

引导和训练10个分类器，然后进行聚合。

或

将数据集随机分成10部分，对10个分类器进行训练，然后进行聚类。哪个会更好？

第二种方法会减少方差吗?它会比第一种方法好吗？

variance

random-forest

decision-trees

cross-validation

回答 1

Data Science用户

回答已采纳

发布于 2018-01-11 14:50:17

我认为第二种方法会产生比第一种方法更少的关联模型。对于决策树来说尤其如此，这些树往往会在底层节点中快速地过度拟合。这将有助于减少差异。

但是，通过使用第二种方法，您将以10个较小的数据集结束，因此您可能会由于观察次数太少而引入一个方差错误。再次讨论决策树，这将意味着您的树算法将倾向于过分适合上层的树。所以你会增加你的方差误差。

在我看来，对于大多数数据集来说，使用第一种方法要比使用第二种方法更好。我认为非常低的相关估计量不会带来比第一种方法更好的改进。

我们还可以看到，这两种方法的不同也取决于观察的数量、特征的数量、所使用的估计器的种类。基准会很有趣的！

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/26519

复制

相似问题

问引导数据集还是随机分割数据集以减少方差？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问引导数据集还是随机分割数据集以减少方差？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问引导数据集还是随机分割数据集以减少方差？
EN