首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >变压器的反向传播

变压器的反向传播
EN

Data Science用户
提问于 2021-02-05 13:22:11
回答 1查看 3.8K关注 0票数 2

当一个变压器模型被训练时,在解码器的末端有线性层,我的理解是一个完全连接的神经网络。在变压器模型训练过程中,当有损耗时,会反向传播来调整权值。

我的问题是反向传播有多深?

  • 它是否只发生在线性层权值(完全连接的神经网络)?
  • 还是将其扩展到所有解码器层权重矩阵(Q、K、V)和前向层权重?
  • 或者它扩展到甚至编码器+解码器的权重?

请帮我回答这个问题。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-02-05 13:45:18

反向传播扩展到整个模型,通过所有的解码器和编码器层,直到嵌入表。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88977

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档