首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >变压器中的前馈网络是用来训练什么的?

变压器中的前馈网络是用来训练什么的?
EN

Data Science用户
提问于 2020-02-13 14:09:33
回答 1查看 1.2K关注 0票数 1

在阅读了“注意力就是你所需要的一切”这篇文章之后,我理解了变压器的总体架构。然而,我不清楚前馈神经网络是如何学习的。

关于神经网络,我学到的是,它们是基于一个目标变量,通过根据特定的损失函数进行反向传播来学习的。

看看转换器的体系结构,我不清楚这些前馈网络中的目标变量是什么。有人能给我解释一下吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-02-14 08:15:51

让我们以变压器可以用于的常见翻译任务为例:如果您想将英语翻译成德语,那么您的培训数据可以是

(“猫是黑色的”,“死掉的卡茨·施瓦兹”)。

在这种情况下,您的目标只是德语句子"die Katze ist schwarz“(当然,它不是作为字符串处理,而是使用嵌入式包含。位置信息)。这是您计算损失的内容,运行反向支持,并得到梯度以及权重更新。

因此,您可以想到变压器的浅蓝前馈层。

作为常规前馈网络中的一个隐藏层。对于一个规则的隐层,它的参数通过基于变压器loss(output,target)的反向支持来更新,目标是翻译的句子。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/68020

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档