文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么我的包装模型的准确性受到随机状态的严重影响？

问为什么我的包装模型的准确性受到随机状态的严重影响？
EN

Data Science用户

提问于 2020-11-02 19:21:07

回答 1查看 271关注 0票数 1

当设置随机seed=5时，套袋决策树模型的准确率可达97%，而当设置随机seed=0时，准确率仅为92%。有人能解释为什么巨大的差距，我应该只是在我的研究论文中使用最高值的准确性，还是用随机seed=None的平均值？

machine-learning

classification

random-forest

bagging

回答 1

Data Science用户

回答已采纳

发布于 2020-11-02 23:01:32

有人能解释一下为什么巨大的差距

这仅仅意味着会有相当高的方差，取决于选择的是哪一组随机实例。您在包装过程中对实例重新取样了多少次？增加运行次数可能会减少差异。正如注释中提到的，性能差异的最常见原因是样本太小(和/或许多特性/类太高)。这很可能会导致你的模特太合适了。

我应该只是在我的研究论文中使用最高值的精确度，还是用随机seed=None取平均值？

从来没有在随机运行中使用最高的性能，这是挑选樱桃和它不反映真正的表现。选择随机种子的可能性是为了可复制的目的，而选择结果最好的种子则是与重复性原则相反的。

由于您使用的是套袋，您应该通过增加运行次数来减少方差(这是重点)。如果您由于任何原因不能这样做，那么就不要使用套袋:只需重复常规流程拆分-培训-评估N时间(使用固定比例的培训/测试数据)或使用交叉验证，并报告平均性能(最好也报告方差，例如标准差)。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/84859

复制

相似问题

问为什么我的包装模型的准确性受到随机状态的严重影响？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么我的包装模型的准确性受到随机状态的严重影响？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么我的包装模型的准确性受到随机状态的严重影响？
EN