首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在变压器中堆叠编解码器的N=6块的目的是什么?

在变压器中堆叠编解码器的N=6块的目的是什么?
EN

Data Science用户
提问于 2023-04-18 20:15:40
回答 1查看 43关注 0票数 0

我试着从“关注是你所需要的一切”的角度来理解变压器架构。

堆叠编码器和解码器的N=6块的目的是什么?更高的词组代表较长的短语,并学习更长的短语处理什么?而最底层的块则代表单个单词及其关注;比如CNN的第一层代表像素,更深的层代表边缘,更深的层代表形状(如鼻子、手等)?

EN

回答 1

Data Science用户

发布于 2023-04-18 21:14:10

更高的词组代表较长的短语,并学习更长的短语处理什么?

不,每个层都可以处理任意长的序列。

而最底层的块则代表单个单词及其关注;比如CNN的第一层代表像素,更深的层代表边缘,更深的层代表形状(如鼻子、手等)?

就像这样。更接近令牌嵌入的层表示较低级别的令牌关系,而更深层的层则学会表示输入序列中存在的更高级别的信息。

您可以检查探测转换器模型的研究,以了解哪种语言信息最好地在每一层中表示,例如:

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121015

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档