
在这里,Q、K和V通过一个线性层得到实际的Q、K和V的自我注意机制,然后将它们连接起来。
我怀疑的是,我认为Q、K和V是通过输入嵌入X获得的。
为什么我们要使用Q,K和V,并线性投影它们来再次取回Q,K和V。
抱歉,如果我的怀疑是愚蠢的!
发布于 2023-05-14 14:22:53
我们不应将多头注意块接收到的K、Q和V向量与缩放的点积块接收的向量错误。
输入到多头注意块的K、Q和V向量分别投影到每个注意头的较低维空间,以便每个缩放点积可以计算不同的结果。下空间的维数是原空间除以头数的维数。
在缩放后的点积后,将单个缩放点积的结果组合成一个单一的向量,恢复原来的维数。
只有在第一注意层,多头注意块的矢量值来自于嵌入。从第二层开始,输入来自前一层的输出。
https://datascience.stackexchange.com/questions/121526
复制相似问题