我正在研究BatchNormalization:https://towardsdatascience.com/batch-normalization-8a2e585775c9
这篇文章说:
Using batch normalization allows us to use much higher learning rates, which further increases the speed at which networks train.有谁能分享一下他们的想法,为什么批量标准化允许更高的学习率?谢谢!
发布于 2019-12-02 10:36:40
第3.3节对原来的批标准化文件有很好的解释为什么会这样。
具有较高学习率的
首先,你需要理解高学习率的问题。较高的学习率会导致渐变的爆发或消失。换句话说,梯度是彼此相乘的,所以低层经历了较高层次梯度的复合效应。
批处理规范化就是保持所有层的激活规范化,防止它们变得太大或太小。因此,这直接有助于防止爆炸/消失梯度。由于这个原因,批量标准化允许更高的学习率。
https://datascience.stackexchange.com/questions/64070
复制相似问题