swish激活函数替代 GPT中使用了GELU Shazeer等人使用了GLU(Gated Linear Unit) 获取更大容量的FFN 一些工作着重于拓展FFN,以获得更大的模型容量 Lample等人使用product-key product-key memory layer 关于这篇文章,我推荐这篇解读large memory layer(https://zhuanlan.zhihu.com/p/76501184) Gshard
., 2019 ; product-key attention, Lample et al., 2019; locality-sensitive hashing, Kitaev et al., 2020