首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么偏倚的学习率通常是加权学习率的两倍?

为什么偏倚的学习率通常是加权学习率的两倍?
EN

Data Science用户
提问于 2017-10-04 19:19:06
回答 1查看 3.2K关注 0票数 6

我注意到,在我一直在研究的几个caffe模型中,偏差的学习率通常是权重学习率的两倍。

另一个用户提到,这在这条线中是这样的,但没有详细说明为什么会这样做。

有什么理由让不同的学习率的偏差作为权重?我是否错过了一些论文,提供了一个理论或实验的理由这一点?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-01-03 22:41:52

我找不到任何关于设定固定学习率的文献,对于偏差的设定与其他权重不同,但如果你问负责该模型的研究人员,他们的答案可能是:

“网络没有进行适当的训练,我注意到偏差项的错误并没有像我想的那么快地收敛。当我尝试将学习速度提高一倍时,它似乎解决了问题。我不知道男人,它只是起作用了。”

据我所知,训练神经网络比科学更有艺术意义,训练一个神经网络的技巧、耐心和谨慎程度(取决于架构)对模型的性能的影响与网络拓扑的影响一样大。考虑一些问题,比如GANs中的模式崩溃,使用ReLUs的渐变消失,或者只是陷入局部最优。在训练过程中,神经网络往往需要是“保姆”,因此,试验和错误可能对某些训练过程的决策有很大的帮助。我很抱歉,如果这不是一个令人满意的答案,但我有强烈的怀疑,这是怎么回事。如果你张贴一些具体的例子,它可能更容易弄清楚具体是怎么回事,但否则我的猜测是,这只是试错的结果。

关于使用参数特定的学习率,一般情况下,大多数现代优化器都是这样做的。,包括AdaGrad,RMSProp和Adam.

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/23549

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档