为了适当地收敛到最优,人们发明了各种使用自适应学习速率的算法,如AdaGrad、Adam和RMSProp。另一方面,有一个学习速率调度器,如功率调度和指数调度。
然而,我不明白你应该在哪种情况下使用其中一种而另一种。我认为使用自适应学习速率优化算法(如Adam )比使用学习速率调度器更简单、更容易实现。
那么,你如何才能正确地使用它,这取决于什么样的问题?
发布于 2017-08-16 17:59:17
我不确定其他领域,但最近在深度神经网络训练领域,有一个arXiv提交,机器学习中自适应梯度法的边际值。
自适应优化方法是一种利用迭代历史构造的度量来进行局部优化的方法,在深层神经网络的训练中得到了越来越广泛的应用。例如AdaGrad、RMSProp和Adam。我们发现,对于简单的过参数化问题,自适应方法往往与梯度下降(GD)或随机梯度下降(SGD)有很大的不同。我们构造了一个说明性的二进制分类问题,其中数据是线性可分的,GD和SGD的测试误差为零,而AdaGrad、Adam和RMSProp的测试误差任意接近一半。此外,我们还研究了几种最先进的深度学习模型上自适应方法的经验泛化能力。我们观察到,通过自适应方法发现的解决方案比SGD更糟糕(通常更差),即使这些解决方案具有更好的训练性能。这些结果表明,从业者应该重新考虑使用自适应方法训练神经网络。
https://datascience.stackexchange.com/questions/22264
复制相似问题