作为硕士论文的一部分,我使用不同的ML模型进行预测和分类。问题是,我很困惑是应该只对固定的random_state使用结果(假设10),还是每次使用不同的random_state。(例如,使用3种不同的random_state并取结果的平均值)。
发布于 2022-09-25 21:03:21
是的,理想情况下,你应该用不同的随机种子进行实验。
推荐使用固定随机种子的原因是可重现性,即每次训练模型时都不希望得到不同的结果。然而,固定随机种子并不能解决任何非确定性模型的结果将取决于所选随机种子的问题。它只会确保你(或者在这种情况下,你的论文导师)能够复制结果。
但正如为什么比较单个性能分数不能得出关于机器学习方法的结论的作者所写:
...有很高的风险,在这类评估的统计意义并不是由于一种优越的学习方法。相反,有很大的风险,差异是由于偶然。
因为
神经网络等非确定性方法可以生成性能不同的模型,而基于单个模型的性能比较不允许对底层学习方法得出结论。
因此
...不只是提交一个模型,而是使用不同的随机种子值来训练多个模型。这些呈文不应单独处理。相反,应该报告考试分数的平均值和标准差。
的考虑
如果您执行k折叠交叉验证,这并不适用,因为随机数生成器将从折叠到折叠,因此,每个折叠中的模型都是基于不同的随机数。
话虽如此,我也会检查你的MSc中具体教授了哪些验证策略,以及您的论文主管(S)对此的看法(例如,他们发表的论文)。此外,由于这是一个硕士论文,你有有限的时间可用,你可能也需要务实。如果您的模型需要一个星期的培训,并且有更多的模型需要培训,那么您可能需要减少每个模型的实验数量。如果是这样的话,我会在你的论文中强调这一点。
https://datascience.stackexchange.com/questions/114599
复制相似问题