文章/答案/技术大牛

发布

社区首页 >问答首页 >变压器中的前馈网络是用来训练什么的？

问变压器中的前馈网络是用来训练什么的？
EN

Data Science用户

提问于 2020-02-13 14:09:33

回答 1查看 1.2K关注 0票数 1

在阅读了“注意力就是你所需要的一切”这篇文章之后，我理解了变压器的总体架构。然而，我不清楚前馈神经网络是如何学习的。

关于神经网络，我学到的是，它们是基于一个目标变量，通过根据特定的损失函数进行反向传播来学习的。

看看转换器的体系结构，我不清楚这些前馈网络中的目标变量是什么。有人能给我解释一下吗？

neural-network

nlp

autoencoder

transformer

attention-mechanism

回答 1

Data Science用户

回答已采纳

发布于 2020-02-14 08:15:51

让我们以变压器可以用于的常见翻译任务为例:如果您想将英语翻译成德语，那么您的培训数据可以是

(“猫是黑色的”，“死掉的卡茨·施瓦兹”)。

在这种情况下，您的目标只是德语句子"die Katze ist schwarz“(当然，它不是作为字符串处理，而是使用嵌入式包含。位置信息)。这是您计算损失的内容，运行反向支持，并得到梯度以及权重更新。

因此，您可以想到变压器的浅蓝前馈层。

作为常规前馈网络中的一个隐藏层。对于一个规则的隐层，它的参数通过基于变压器loss(output,target)的反向支持来更新，目标是翻译的句子。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/68020

复制

相似问题

问变压器中的前馈网络是用来训练什么的？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问变压器中的前馈网络是用来训练什么的？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问变压器中的前馈网络是用来训练什么的？
EN