我知道,我们监测验证损失,以调查过度拟合。我熟悉验证曲线,它先减小后再增加。增长部分意味着模型开始过度适应。然而,我不能肯定地理解和解释一个验证损失,它首先减少,然后变平。2之间有什么区别?容量与可用数据集大小之间的关系是什么?

发布于 2022-02-28 21:50:53
除其他外,验证集技巧是一种正则化技术,粗略地说,它可以防止模型对数据进行过度拟合。其核心只是理论上困难问题的统计近似。
一方面,如果验证损失减少,然后增加,则模型开始过度拟合,建议采用早停条件(例如,如果验证损失连续5个周期没有减少)。
另一方面,如果验证量减少,然后变平,则模型在统计上是稳健的,就像验证损失马厩一样。
如果有疑问,你可以交叉验证这个问题。
我没有完全理解你的最后一个问题。您对数据集的容量和大小的定义是什么?你想要什么样的关系?如果你能进一步解释的话,我将继续回答。
https://datascience.stackexchange.com/questions/108627
复制相似问题