问MXNet AdamW优化器
EN

Stack Overflow用户

提问于 2020-05-04 07:54:25

回答 1查看 271关注 0票数 1

Adam优化器在使用重量衰减时有缺陷。2018年，AdamW优化器被提出。

在AdamW框架(python实现)中有任何实现MXNet的标准方法吗？有mxnet.optimizer.Adam类，但没有mxnet.optimizer.AdamW类(在mxnet-cu102==1.6.0、mxnet==1.5.0包版本中签入)。

发布于 2020-08-02 22:57:49

简短的回答:目前还没有一种标准的方法在胶子中使用AdamW，但是在这个方向上有一些现有的工作可以使这相对容易添加。

较长的答覆：

人们一直在要求这个特性-很多:)参见：https://github.com/apache/incubator-mxnet/issues/9182
胶子-NLP有一个AdamW的工作版本--可能与原始论文中的一个略有不同：adam.py。
adamw_update()操作符是与这个拉请求一起添加的：https://github.com/apache/incubator-mxnet/pull/13728，这是在MXNet 1.6.0中首次发布的。
不幸的是，现在似乎没有一种方法可以直接在gluon.Trainer中使用它，而无需复制/修改BERTAdam代码(或者从头编写类似的东西)。这将是一件非常好的事情添加到胶子。

如果你能做到这一点，请告诉我，因为我也希望能够使用它。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61587501

复制

相似问题

问MXNet AdamW优化器EN