首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    A Survey of Transformer 一篇Transformer综述(下)

    swish激活函数替代 GPT中使用了GELU Shazeer等人使用了GLU(Gated Linear Unit) 获取更大容量的FFN 一些工作着重于拓展FFN,以获得更大的模型容量 Lample等人使用product-key product-key memory layer 关于这篇文章,我推荐这篇解读large memory layer(https://zhuanlan.zhihu.com/p/76501184) Gshard

    1.3K30发布于 2021-07-01
  • 来自专栏机器之心

    NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧

    ., 2019 ; product-key attention, Lample et al., 2019; locality-sensitive hashing, Kitaev et al., 2020

    42030发布于 2020-02-24
领券