卡菲能做到的。由于某些层的神经网络需要较大的学习速率,而控制层需要较小的lr。如何控制不同层的链路中有不同的lr,从而使优化器能够根据相应的lr进行更新?
发布于 2017-09-01 09:34:23
您可以为hyperparam的每个参数覆盖update_rule,该参数指定optimizer的更新策略,如下所示,
model.l1.W.update_rule.hyperparam.lr = 0.01
关于细节,我已经回答了同一个问题
How to implement separate learning rate or optimizer in different layer in Chainer?
顺便说一句,chainer的函数没有任何要更新的parameter,因此函数没有update_rule。
https://stackoverflow.com/questions/45996999
复制相似问题