我对批处理归一化层并不完全熟悉。据我所知,它将在训练时使用小批量统计计算归一化。
当小批量大小非常小时(例如,对于小批量大小,每次迭代使用2或4个图像),你们中有谁有使用这些层的经验吗?有没有什么理由让它不能高效工作呢?
我的感觉是,在训练时,统计数据是在非常小的样本上计算的,可能会对训练产生负面影响,你认为呢?
发布于 2017-12-14 22:57:13
你的直觉是正确的,样本可能与总体不同(小批量与所有样本),但这个问题在批量标准化论文中得到了解决。具体地说,在训练期间,您可以通过除以批量大小(N)来获得样本的方差,但在测试期间,您可以使用无偏的方差估计(乘以N/(N-1))来计算样本的方差:查看此处以获得更详细且易于理解的解释:Batch Normalization
https://stackoverflow.com/questions/47815058
复制相似问题