首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >变压器理解

变压器理解
EN

Data Science用户
提问于 2021-02-02 12:45:33
回答 1查看 109关注 0票数 -2

我有个大麻烦。我不懂变压器。我理解嵌入,rnn,GAN,甚至注意。但我不懂变压器。大约两个月前,我决定避免使用变压器,因为我发现它们很难使用。但我不能再逃避变压器了。求你帮帮我。我想使用和理解变压器的工作。我怎样才能开始与他们合作呢?过去,我想了解他们的总体想法,我也想用keras/tensorflow来编写/实现他们--当然,我是和一些教程联系在一起的。但我还是不明白。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-02-03 17:58:44

以下是你在评论中指出的具体疑问的答案:

  • 变形金刚使用许多构建块,如自我关注、层规范化、残余连接等。像图示变压器这样的教程对于理解这些块以及它们是如何结合在一起非常有用。
  • softmax的作用是将总和规范化为1。在这个例子中,您可以看到,softmax归一化值是0.88和0.12,这两个值加起来等于1。然后将softmax的结果用作值的权重,然后将这些值相加在一起。
  • 解码器与编码器非常相似,特别是在训练时。主要的区别是查询是从目标端获取的,而键和值是从源端获取的,并且注意被屏蔽,以避免预测时间t依赖于相同位置和未来位置的标记。
  • 解码器既接收编码器的输出,又接收目标序列,要么在训练时接收完整序列,要么在推理时接收部分序列。
  • 在训练时,解码器接收整个目标语句标记。在推理时,我们没有目标语句;相反,我们使用自回归模型:在每一个解码步骤中,我们传递作为先前预测的输入,得到下一个令牌的预测,将其与前一步输入连接起来,并将其用作下一步的输入;在自回归解码的第一步,我们只是将一个序列作为输入传递给特定的令牌<s>
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88823

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档