问深度学习前馈网络中的噪声行为
EN

Data Science用户

提问于 2016-04-25 12:33:31

回答 1查看 386关注 0票数 3

我对优化3层或更多层的神经网络有点不确定。输入的数据是相当嘈杂的，我似乎把噪声投射到学习中(数据中有很强的偏差，90%属于五类中的一个)。

但是，我想得到一些关于解释的反馈(我使用50/25/8/8/8/8神经元(第一个隐藏层后的keep_prob=0，9)：

回答已采纳

发布于 2016-04-29 00:58:39

你的f1分数图的总对数形状表明学习是有效的，而且成本正朝着最低的方向发展。那很好。我假设您所指的噪声是经过大约3k次迭代后的图的不稳定性:成本下降并以一种锯齿的方式上升。

这常常暗示着学习率太高了。反向传播找到正确的梯度，但你太大的一步，最终攀爬，而不是沿着成本函数的边缘下降。当一个图似乎围绕某个中间值振荡时，这一点就特别明显了。你没有提到你正在使用的学习率的确切价值，但是尽量降低它。一个很好的起点是0.01，但它取决于许多因素，所以尝试实验。

另一个问题可能是批处理大小:也就是说，有多少个示例有助于计算梯度。如果它太大，你可能最终会有一个平均梯度指向错误的方向。即使是一小步(即低学习率)也于事无补。它可能会再次以锯齿状的模式表现出来。如果批处理大小是参数之一，请尽量减少它。

最不可能的问题可能是网络的编码架构。尤其是最后一层的8个神经元数量不多。在这种情况下，单个神经元可能会对最终输出产生相当大的影响。即使是由一步反向传播引起的微小调整，也可能会改变神经元的激活值，从而影响其他例子的结果。试着增加最后一层神经元的数量。我个人建议尝试一个50x50x50的体系结构。

希望这能有所帮助！

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/11410

复制

相似问题

问深度学习前馈网络中的噪声行为EN