Adam优化器在使用重量衰减时有缺陷。2018年,AdamW优化器被提出。
在AdamW框架(python实现)中有任何实现MXNet的标准方法吗?有mxnet.optimizer.Adam类,但没有mxnet.optimizer.AdamW类(在mxnet-cu102==1.6.0、mxnet==1.5.0包版本中签入)。
我问了https://discuss.mxnet.io/t/implementing-adamw-in-mxnet/6074和https://datascience.stackexchange.com/questions/73460/mxnet-adamw-optimizer这两个问题,但没有结果。
发布于 2020-08-02 22:57:49
简短的回答:目前还没有一种标准的方法在胶子中使用AdamW,但是在这个方向上有一些现有的工作可以使这相对容易添加。
较长的答覆:
adamw_update()操作符是与这个拉请求一起添加的:https://github.com/apache/incubator-mxnet/pull/13728,这是在MXNet 1.6.0中首次发布的。gluon.Trainer中使用它,而无需复制/修改BERTAdam代码(或者从头编写类似的东西)。这将是一件非常好的事情添加到胶子。如果你能做到这一点,请告诉我,因为我也希望能够使用它。
https://stackoverflow.com/questions/61587501
复制相似问题