我注意到,在我一直在研究的几个caffe模型中,偏差的学习率通常是权重学习率的两倍。
另一个用户提到,这在这条线中是这样的,但没有详细说明为什么会这样做。
有什么理由让不同的学习率的偏差作为权重?我是否错过了一些论文,提供了一个理论或实验的理由这一点?
发布于 2018-01-03 22:41:52
我找不到任何关于设定固定学习率的文献,对于偏差的设定与其他权重不同,但如果你问负责该模型的研究人员,他们的答案可能是:
“网络没有进行适当的训练,我注意到偏差项的错误并没有像我想的那么快地收敛。当我尝试将学习速度提高一倍时,它似乎解决了问题。我不知道男人,它只是起作用了。”
据我所知,训练神经网络比科学更有艺术意义,训练一个神经网络的技巧、耐心和谨慎程度(取决于架构)对模型的性能的影响与网络拓扑的影响一样大。考虑一些问题,比如GANs中的模式崩溃,使用ReLUs的渐变消失,或者只是陷入局部最优。在训练过程中,神经网络往往需要是“保姆”,因此,试验和错误可能对某些训练过程的决策有很大的帮助。我很抱歉,如果这不是一个令人满意的答案,但我有强烈的怀疑,这是怎么回事。如果你张贴一些具体的例子,它可能更容易弄清楚具体是怎么回事,但否则我的猜测是,这只是试错的结果。
关于使用参数特定的学习率,一般情况下,大多数现代优化器都是这样做的。,包括AdaGrad,RMSProp和Adam.
https://datascience.stackexchange.com/questions/23549
复制相似问题