在阅读了“注意力就是你所需要的一切”这篇文章之后,我理解了变压器的总体架构。然而,我不清楚前馈神经网络是如何学习的。
关于神经网络,我学到的是,它们是基于一个目标变量,通过根据特定的损失函数进行反向传播来学习的。

看看转换器的体系结构,我不清楚这些前馈网络中的目标变量是什么。有人能给我解释一下吗?

发布于 2020-02-14 08:15:51
让我们以变压器可以用于的常见翻译任务为例:如果您想将英语翻译成德语,那么您的培训数据可以是
(“猫是黑色的”,“死掉的卡茨·施瓦兹”)。
在这种情况下,您的目标只是德语句子"die Katze ist schwarz“(当然,它不是作为字符串处理,而是使用嵌入式包含。位置信息)。这是您计算损失的内容,运行反向支持,并得到梯度以及权重更新。
因此,您可以想到变压器的浅蓝前馈层。

作为常规前馈网络中的一个隐藏层。对于一个规则的隐层,它的参数通过基于变压器loss(output,target)的反向支持来更新,目标是翻译的句子。
https://datascience.stackexchange.com/questions/68020
复制相似问题