我试着从“关注是你所需要的一切”的角度来理解变压器架构。

堆叠编码器和解码器的N=6块的目的是什么?更高的词组代表较长的短语,并学习更长的短语处理什么?而最底层的块则代表单个单词及其关注;比如CNN的第一层代表像素,更深的层代表边缘,更深的层代表形状(如鼻子、手等)?
发布于 2023-04-18 21:14:10
更高的词组代表较长的短语,并学习更长的短语处理什么?
不,每个层都可以处理任意长的序列。
而最底层的块则代表单个单词及其关注;比如CNN的第一层代表像素,更深的层代表边缘,更深的层代表形状(如鼻子、手等)?
就像这样。更接近令牌嵌入的层表示较低级别的令牌关系,而更深层的层则学会表示输入序列中存在的更高级别的信息。
您可以检查探测转换器模型的研究,以了解哪种语言信息最好地在每一层中表示,例如:
https://datascience.stackexchange.com/questions/121015
复制相似问题