当设置随机seed=5时,套袋决策树模型的准确率可达97%,而当设置随机seed=0时,准确率仅为92%。有人能解释为什么巨大的差距,我应该只是在我的研究论文中使用最高值的准确性,还是用随机seed=None的平均值?
发布于 2020-11-02 23:01:32
有人能解释一下为什么巨大的差距
这仅仅意味着会有相当高的方差,取决于选择的是哪一组随机实例。您在包装过程中对实例重新取样了多少次?增加运行次数可能会减少差异。正如注释中提到的,性能差异的最常见原因是样本太小(和/或许多特性/类太高)。这很可能会导致你的模特太合适了。
我应该只是在我的研究论文中使用最高值的精确度,还是用随机seed=None取平均值?
从来没有在随机运行中使用最高的性能,这是挑选樱桃和它不反映真正的表现。选择随机种子的可能性是为了可复制的目的,而选择结果最好的种子则是与重复性原则相反的。
由于您使用的是套袋,您应该通过增加运行次数来减少方差(这是重点)。如果您由于任何原因不能这样做,那么就不要使用套袋:只需重复常规流程拆分-培训-评估N时间(使用固定比例的培训/测试数据)或使用交叉验证,并报告平均性能(最好也报告方差,例如标准差)。
https://datascience.stackexchange.com/questions/84859
复制相似问题