首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >引导数据集还是随机分割数据集以减少方差?

引导数据集还是随机分割数据集以减少方差?
EN

Data Science用户
提问于 2018-01-11 12:21:11
回答 1查看 115关注 0票数 3

如果我有10,000个训练样本,那我该怎么办:

引导和训练10个分类器,然后进行聚合。

将数据集随机分成10部分,对10个分类器进行训练,然后进行聚类。哪个会更好?

第二种方法会减少方差吗?它会比第一种方法好吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-01-11 14:50:17

我认为第二种方法会产生比第一种方法更少的关联模型。对于决策树来说尤其如此,这些树往往会在底层节点中快速地过度拟合。这将有助于减少差异。

但是,通过使用第二种方法,您将以10个较小的数据集结束,因此您可能会由于观察次数太少而引入一个方差错误。再次讨论决策树,这将意味着您的树算法将倾向于过分适合上层的树。所以你会增加你的方差误差。

在我看来,对于大多数数据集来说,使用第一种方法要比使用第二种方法更好。我认为非常低的相关估计量不会带来比第一种方法更好的改进。

我们还可以看到,这两种方法的不同也取决于观察的数量、特征的数量、所使用的估计器的种类。基准会很有趣的!

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26519

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档