重要注意:值得指出的是，我们将损失除以batch_size，因此我们的超参数对batch_size是“不变的”。有些人将损失除以(batch_size * num_time_steps)，它淡化了短句中所犯的错误。更微妙的是，我们的超参数(应用于前一种方式)不能用于后一种方式。例如，如果两种方法都使用学习为1.0的SGD，则后者有效地使用了1/ num_time_steps的小得多的学习速率。

我没有平均损失，这就是为什么噪音是可以观察到的。

类似地，例如8的批次大小可以有几百个输入和目标，所以实际上你不能说它是小的或大的，不知道示例的平均长度。

票数 5

Stack Overflow用户

发布于 2018-02-02 09:54:18

噪音训练的损失，但良好的准确性，可能是由于这个原因：

局部极小值：

该函数可以具有局部极小值，因此每次梯度下降收敛到局部极小时，损失/成本就会减少。但在学习速度好的情况下，该模型将学习从这些点跳转，梯度下降将收敛到全局极小值，即解。这就是为什么训练损失很大的原因。

票数 2

Stack Overflow用户

发布于 2018-02-02 10:14:47

您使用的是小批处理梯度下降，它计算损失函数的梯度仅针对小批处理中的示例。然而，你正在测量的损失超过了所有的训练例子。总体损失应该有一个下降的趋势，但它往往会走错方向，因为你的小批量梯度不是一个足够准确的估计总损失。

此外，在每一步中，你都在将梯度乘以学习速率，试图降低损失函数。这是一个局部近似，经常会超过目标的最小值，并最终在损失面上的一个较高的点结束，特别是当你的学习率很高的时候。

像源

把这个图像看作只有一个参数的模型的损失函数。我们取点处的梯度，乘以学习速率，在梯度的方向投射一个线段(未见图)。然后，我们将这个线段末尾的x值作为我们更新的参数，最后在这个新的参数设置下计算损失。

如果我们的学习率太高，那么我们就会超过梯度指向的最小值，并可能导致更高的损失，如图所示。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48579315

复制

相似问题

问噪声训练损失
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问噪声训练损失EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问噪声训练损失
EN