首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >神经网络中的批量归一化

神经网络中的批量归一化
EN

Stack Overflow用户
提问于 2015-04-30 23:05:20
回答 1查看 2.9K关注 0票数 7

我对ANN还是很陌生的,我只是在读批量标准化论文(http://arxiv.org/pdf/1502.03167.pdf),但我不确定我是否得到了他们正在做的事情(更重要的是,它为什么会起作用)

假设我有两层L1和L2,L1产生输出并发送给L2中的神经元。批归一化只取L1的所有输出(即每个神经元的每一个输出,得到一个完全连通的网络的|L1| X |L2|数的总向量),将其归一化为平均值为0和SD为1,然后将它们反馈给它们各自的L2神经元(加上本文讨论的γ和β的线性变换)。

如果确实是这样的话,这对神经网络有什么帮助呢?固定分布有什么特别之处?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-05-01 10:31:07

在标准的SGD网络训练中,由于隐层之前的隐层也在不断变化,所以输入到隐层的分布也会发生变化。这就是所谓的协变量转移,可能是一个问题;例如,请参见这里

众所周知,如果训练数据被“白化”,神经网络的收敛速度会更快,即通过变换使每个分量都具有高斯分布,并且独立于其他分量。见论文(LeCun等人,1998年B)和(Wiesler & Ney,2011年)。

现在作者的想法是不仅将这种白化应用于输入层,而且也应用于每个中间层的输入。对于整个输入数据集来说,这样做太昂贵了,所以他们会按批处理的方式来做。他们声称,这可以大大加快培训过程,也起到了某种正规化的作用。

票数 19
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29979251

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档