首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >变压器怀疑

变压器怀疑
EN

Data Science用户
提问于 2023-05-14 11:29:25
回答 1查看 50关注 0票数 0

在这里,QKV通过一个线性层得到实际的QKV的自我注意机制,然后将它们连接起来。

我怀疑的是,我认为QKV是通过输入嵌入X获得的。

Q=XW_q
K=XW_k
V=XW_v

为什么我们要使用QKV,并线性投影它们来再次取回QKV

抱歉,如果我的怀疑是愚蠢的!

EN

回答 1

Data Science用户

发布于 2023-05-14 14:22:53

我们不应将多头注意块接收到的K、Q和V向量与缩放的点积块接收的向量错误。

输入到多头注意块的K、Q和V向量分别投影到每个注意头的较低维空间,以便每个缩放点积可以计算不同的结果。下空间的维数是原空间除以头数的维数。

在缩放后的点积后,将单个缩放点积的结果组合成一个单一的向量,恢复原来的维数。

只有在第一注意层,多头注意块的矢量值来自于嵌入。从第二层开始,输入来自前一层的输出。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121526

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档