首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >MXNet AdamW优化器

MXNet AdamW优化器
EN

Stack Overflow用户
提问于 2020-05-04 07:54:25
回答 1查看 271关注 0票数 1

Adam优化器在使用重量衰减时有缺陷。2018年,AdamW优化器被提出。

在AdamW框架(python实现)中有任何实现MXNet的标准方法吗?有mxnet.optimizer.Adam类,但没有mxnet.optimizer.AdamW类(在mxnet-cu102==1.6.0mxnet==1.5.0包版本中签入)。

我问了https://discuss.mxnet.io/t/implementing-adamw-in-mxnet/6074https://datascience.stackexchange.com/questions/73460/mxnet-adamw-optimizer这两个问题,但没有结果。

EN

回答 1

Stack Overflow用户

发布于 2020-08-02 22:57:49

简短的回答:目前还没有一种标准的方法在胶子中使用AdamW,但是在这个方向上有一些现有的工作可以使这相对容易添加。

较长的答覆:

  • 人们一直在要求这个特性-很多:)参见:https://github.com/apache/incubator-mxnet/issues/9182
  • 胶子-NLP有一个AdamW的工作版本--可能与原始论文中的一个略有不同:adam.py
  • adamw_update()操作符是与这个拉请求一起添加的:https://github.com/apache/incubator-mxnet/pull/13728,这是在MXNet 1.6.0中首次发布的。
  • 不幸的是,现在似乎没有一种方法可以直接在gluon.Trainer中使用它,而无需复制/修改BERTAdam代码(或者从头编写类似的东西)。这将是一件非常好的事情添加到胶子。

如果你能做到这一点,请告诉我,因为我也希望能够使用它。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61587501

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档