首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么我的包装模型的准确性受到随机状态的严重影响?

为什么我的包装模型的准确性受到随机状态的严重影响?
EN

Data Science用户
提问于 2020-11-02 19:21:07
回答 1查看 271关注 0票数 1

当设置随机seed=5时,套袋决策树模型的准确率可达97%,而当设置随机seed=0时,准确率仅为92%。有人能解释为什么巨大的差距,我应该只是在我的研究论文中使用最高值的准确性,还是用随机seed=None的平均值?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-11-02 23:01:32

有人能解释一下为什么巨大的差距

这仅仅意味着会有相当高的方差,取决于选择的是哪一组随机实例。您在包装过程中对实例重新取样了多少次?增加运行次数可能会减少差异。正如注释中提到的,性能差异的最常见原因是样本太小(和/或许多特性/类太高)。这很可能会导致你的模特太合适了。

我应该只是在我的研究论文中使用最高值的精确度,还是用随机seed=None取平均值?

从来没有在随机运行中使用最高的性能,这是挑选樱桃和它不反映真正的表现。选择随机种子的可能性是为了可复制的目的,而选择结果最好的种子则是与重复性原则相反的。

由于您使用的是套袋,您应该通过增加运行次数来减少方差(这是重点)。如果您由于任何原因不能这样做,那么就不要使用套袋:只需重复常规流程拆分-培训-评估N时间(使用固定比例的培训/测试数据)或使用交叉验证,并报告平均性能(最好也报告方差,例如标准差)。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/84859

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档