我正在尝试运行一个基于U-net架构的图像分割代码.在实验中,我发现Adam优化器的运行速度比动量优化器慢得多。我不知道这是否这两个优化者之间的共同观察?还是应该是依赖于数据的观察?
发布于 2016-11-14 20:33:28
由于Adam算法是一种自适应学习速率算法,所以使用Adam的优化比动量优化运行慢,因为前者需要对每一参数的累积为一阶和二阶矩的指数移动平均。相反,后者不需要跟踪过去的梯度,也不需要为每个参数应用具有不同值的更新规则。
因此,您的观察是正确的,但它不依赖于数据,而是需要自己进行额外计算的优化算法,因此执行时间(对于每个火车步骤)都比较慢。
其优点是,使用自适应学习速率算法,即使单个步骤较慢,也可以达到最小速度。
发布于 2016-11-14 20:26:36
它可能取决于您的框架;例如,对于MxNet:https://github.com/dmlc/mxnet/issues/1516来说,这是一个问题。在我的经验中,Adam趋向于与较少的时代趋同,尽管我意识到这与快速运行的优化器不同。
https://stackoverflow.com/questions/40597139
复制相似问题