首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NMT的自我注意与注意LSTM

NMT的自我注意与注意LSTM
EN

Data Science用户
提问于 2021-11-28 20:49:25
回答 2查看 1.5K关注 0票数 1

我试着比较一下

  • 答:基于变压器的神经机器翻译(NMT)体系结构是你所需要的全部文件。
  • B:一种基于编码器中的双向LSTM和解码器中的单向LSTM的体系结构,它关注编码器的所有隐藏状态,创建一个加权组合,并与解码器(单向)LSTM输出一起使用该结构产生最终输出字。

我的问题是,A架构相对于B的优势可能是什么,即自我关注与LSTM的关注?

我可以想象,与B体系结构中计算的顺序性质相比,A体系结构具有具有并行计算的巨大优势。

还有其他好处吗?特别是,架构A是否具有注意是你所需要的论文中描述的最大路径长度优势?

EN

回答 2

Data Science用户

发布于 2021-12-14 09:10:28

在翻译质量方面,基于变压器的MT通常比基于RNN的MT性能更好。人们过去常声称RNN对低资源语言对更好,然而,对于质量mBART这样的预先训练的模型来说,情况已经不一样了。

Transformers的另一个优点是,在训练时,它们可以完全并行化,而RNN总是按顺序处理句子。要计算n-th状态,始终需要等待n-1-th就绪。

变压器解码器的一个缺点是,在每一步它都需要处理所有先前解码的令牌,这使得生成在理论上是二次的(在实践中,这可以很好地并行化)。当效率受到关注时,这对将变压器编码器与RNN解码器组合在一起来说可能是个好主意。

票数 0
EN

Data Science用户

发布于 2022-12-10 15:00:08

你实际上是在比较两种革命性的基于神经/注意力的MT模型: Bahdanau 2015和Vaswani 2017。

第一个不同之处是,他们的注意力权重公式略有不同: Bahdanau使用前馈网络来尝试学习相似函数。Vaswani使用缩放的圆点产品。

第二个区别是,在编码器-解码器注意期间,Bahdanau将一个解码器向量与所有编码器向量进行比较。另一方面,Vaswani将所有解码器向量与所有编码器矢量进行比较。

第三个不同之处:正如金德里奇所提到的,变压器的训练速度更快,因为编码器是并行的,而不是顺序的。除了时间,他们还需要更少的计算(约100倍),比最先进的NMT模型时,瓦斯瓦尼论文发表(见表2,第8页),以获得一个有竞争力的翻译质量(BLEU)。我不知道这和Bahdanau的建筑有什么比较,因为Vaswani不包括它。

这两种体系结构之间的第四个重要区别是它们如何处理长期依赖关系。人们常说,Bahdanau解决了Seq2Seq的信息瓶颈问题,它将编码器的所有隐藏状态暴露给解码器,而不仅仅是最后一个。然而,在Bahdanau实际上仍然存在两个信息瓶颈,即编码器和解码器内部。句子一端的单词信息很难一直传播到另一端。所有这些信息都被塞进了LSTM的隐藏状态,当它在其中传播时,隐藏状态变得越来越不清晰。在变压器中,两个词之间的注意力不受它们之间的距离的影响点积是相同的点积。

基于以上情况,这两者之间的最后一个区别是: Bahdanau本质上是用一个BiLSTM对单词嵌入进行预处理,将注意力集中在所产生的内容上。Vaswani直接对嵌入执行注意,只是在单个单词中添加一个调制(单词尚未交互的预处理步骤),以识别同一个单词是否处于不同的位置。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/104607

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档