问神经网络中的批量归一化
EN

Stack Overflow用户

提问于 2015-04-30 23:05:20

回答 1查看 2.9K关注 0票数 7

我对ANN还是很陌生的，我只是在读批量标准化论文(http://arxiv.org/pdf/1502.03167.pdf)，但我不确定我是否得到了他们正在做的事情(更重要的是，它为什么会起作用)

假设我有两层L1和L2，L1产生输出并发送给L2中的神经元。批归一化只取L1的所有输出(即每个神经元的每一个输出，得到一个完全连通的网络的|L1| X |L2|数的总向量)，将其归一化为平均值为0和SD为1，然后将它们反馈给它们各自的L2神经元(加上本文讨论的γ和β的线性变换)。

如果确实是这样的话，这对神经网络有什么帮助呢？固定分布有什么特别之处？

回答已采纳

发布于 2015-05-01 10:31:07

在标准的SGD网络训练中，由于隐层之前的隐层也在不断变化，所以输入到隐层的分布也会发生变化。这就是所谓的协变量转移，可能是一个问题；例如，请参见这里。

众所周知，如果训练数据被“白化”，神经网络的收敛速度会更快，即通过变换使每个分量都具有高斯分布，并且独立于其他分量。见论文(LeCun等人，1998年B)和(Wiesler & Ney，2011年)。

现在作者的想法是不仅将这种白化应用于输入层，而且也应用于每个中间层的输入。对于整个输入数据集来说，这样做太昂贵了，所以他们会按批处理的方式来做。他们声称，这可以大大加快培训过程，也起到了某种正规化的作用。

票数 19

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29979251

复制

相似问题

问神经网络中的批量归一化EN