发布于 2021-11-03 10:11:34
通常,您确实可以考虑在神经网络中添加更多的层和批规范/退出,这是分别控制模型偏差和方差的一种方法。然而,通过堆叠更多的层来增加方差并不总是意味着您的模型过合适。
要诊断你实际上是过度适应,你应该看到你的训练损失远低于你的验证损失(下图)。

但通常情况下,你应该把训练和验证损失曲线之间的“差距”降到最小。这一差距,也就是泛化差距,在你的情况下似乎正在被最小化,增加更多的层(见下面的理想)。这是绝对公平的。

发布于 2019-06-10 15:42:59
来自https://machinelearningmastery.com/stacked-long-short-term-memory-networks/:
“叠加LSTM隐藏层可以使模型更深入,更准确地将其描述为一种深度学习技术……附加的隐藏层被理解为重新组合了以前层的学习表示,并在高抽象级别上创建了新的表示形式。例如,从线条到形状到对象……足够大的单层多层Perceptron可以用来近似大多数功能。增加网络的深度提供了另一种解决方案,需要更少的神经元和更快的训练。最终,增加深度是一种代表性优化。”
在神经网络中增加层/隐单元的数量并不一定会导致过度拟合。太少会导致低训练和测试准确性;太多将导致高训练精度,但测试精度低(过度拟合)。在中间的某个地方,会有适当数量的隐藏层和单位来解决这个问题。一些复杂的问题,如NLP,需要许多堆叠隐藏的LSTM层http://ruder.io/deep-learning-nlp-best-practices/。
https://datascience.stackexchange.com/questions/47969
复制相似问题