我们知道,如果训练和测试损失是不同的,我们的模型是过分合适的。然而,如果两个人在经历了一些时代后都走高了,我们又如何证明这一点呢?
解决这一问题的一种方法是将学习率降低到0.0001。
但是,实际上,我想知道这个突然增长背后的理论原因。

发布于 2019-06-23 11:41:47
这可能是因为高的学习率。
损失函数是凸的,模型需要达到最小值。学习速率决定了你走向最小的步骤的大小。如果你采取高学习率,你可能会超过最小值,从而突然增加的损失值。
https://datascience.stackexchange.com/questions/54320
复制相似问题