## Abstract

本文从常识出发、从自然语言的词性分析/句式分析的视角，深度探讨、推导得到Transformer 模型中 QKV 机制的本质，并据此给出目前流行的`MQA/GQA/MLA` 等模型架构的合理性解释，引申出相关的优缺点与优化方案；同时提出QV 概念并做实验论证，给出QV-Ka 优化方案并实验证实；本文对于QKV 机制的本质的可解释性的理论分析，可以为未来的模型架构的演进提供理论基础。

（投稿中，concat: windyrobin__at__aliyun.com）

## Introduction

一直以来 ，QKV  作为Transformer 的核心机制被广泛使用，但为何要抽象所谓的 q.k.v ，其又分别代表着什么？原论文的解释是 Query、Key、Value 等含义，但这些听起来更像是键值数据库的概念，从自然语言的角度、这些应该是何种含义、其内部到底是怎样一种逻辑呢？
## Background

在 AGF 论文中，我们对Attention 概念/原理有过一定的介绍, 从自然语言的词性分析、句式分析的角度，假如有一句话 "there is a beautiful gril".  其中 ‘girl’ 是 名词/宾语， 'beautiful' 作为 adj 修饰 ‘girl’ ,  从常识可知，形容词能够修饰、搭配名词， 同时，'beautiful' 与 'gril' 也是非常搭配，而同样是形容词与名词，'beautiful' 与 'man' 就不是那么的搭配，所以，一个Token/Embedding，根据常识/统计 我们可以得到某个方向上 最搭配的相关 Token/Embedding，这种相关程度或形成配对/修饰关系的概率，我们称之为  亲和度/Affinity 或 注意力/Attenion 得分，从AGF 论文可知，其与两个词的相对位置呈现幂律分布、整体符合 注意力-引力场的逻辑 。

![image](https://developer.qcloudimg.com/http-save/yehe-11994913/18059c4eec5fff8051e9bcf77c56f28f.png)


## QKV 逻辑

接下去我们进一步的深入分析、来论证如何实现上述的Attention 计算逻辑。

在 Attention 计算中，`qkv` 由原始Token/Embedding Q/V 得到， 其相应的转换矩阵`W[q|k|v]` 的核心作用可分为两类（暂不考虑`q.k` 计算中位置关系的成分）：
1. 表层重整（Shallow-Composing），比如对原先散乱的各个feature、进行拣选、分组/组合，或者对简单聚合，比如两个纬度分别表示 `beautiful`、`girl`， 那么其有可能组合成一个新的临时Feature 来表达 类似 `beauty`的语义。
2. 深层匹配（Deep-Matching）（内部隐含表层重整）， 生成配对/修饰关系，比如 `girl` 作为名词时，  它与形容词 `young`、`beautiful`  等词语经常形成修饰或被修饰的关系，或者与其他动词、量词等构成修饰关系；从常识得知，这一步是完全有可能做到的，这一步其实就是我们在 AGF 文章中所重点探讨的问题，其本质是一个概率密度问题、整体符合注意力-引力场的逻辑。

以Transformer的 `qkv` 的抽象为例，假如 `q` 来自Token-Q ，`k`，`v`  来自 Token-V，分别代表的结果语义可以认为是：
V_v：对 Token-V做表层重整/shallow-composing 得到的数值结果即为 `V_v`， 其对应的特征/纬度组记为： `Fv`
         （即`Fv`代表是维度的概念，`V_v` 则是这个维度上的计算结果）
V_k：对Token-V做 在某个特征方向 `Fk` 上做深层匹配，得到计算结果 即为`V_k`，得到的结果类似于（‘girl’  -> ["beautiful", "young"]）
Q_q:  Token-Q 在对应的特征纬度 `Fk` 的做表层重整得到的投影计算结果
 
注意： 以上为 `D_k = D_model/h` 的场景，即每个Header 的 Key 的维度与Value 维度是等同的，而在 `D_k > D_model/h` 的场景下，可以认为特征维度`Fv` 中的其中一些维度在 `Fk` 产生了特征分裂，类似 `beauty` 分裂为 `beautiful`、`girl` 的逻辑，相当于进一步提升了Attention 相关性计算过程中的分辨率（理论上的确能提升一定的模型准确性）。

![image](https://developer.qcloudimg.com/http-save/yehe-11994913/149cec155daa26041fa780f25446a573.png)

所以，此时`Q_q`、`V_k` 是基于相同的特征维度，其数值则是一个代表事实、一个代表期望，如果对`Q_q`、`V_k` 进行某种相关性计算 `F(Q_q, V_k)`,  其score得分越高、就意味着， Token-A/Token-B的亲和度越高、匹配度越高！ 这个逻辑可以很流畅地解释 `qkv` 生效原理。

所以，标准的 QKV 模式，其本质逻辑上，我们可以称之为:  $Q_q.V_kV_v$

## 简化模式-QV

But ，标准的 QKV逻辑是否可以简化？  假如我们想去掉`V_k`， 那么：
`V_v`：含义与 QKV 模式保持不变，为浅层重整的结果，其对应的特征维度也还是 `Fv`
`Q_v`:  Token-Q 在`Fv` 方向上 做做深层匹配计算，逻辑上等价于在QKV 模式中`V_k` 计算的逆过程,得到结果类似于 ('beauitul' -> ["gril" 、“flower”])
![image](https://developer.qcloudimg.com/http-save/yehe-11994913/109f24ea5f13fb131a2b4893a4239d60.png)

此时`Q_v`、`V_v` 是也是基于相同的特征维度，其数值含义同样是一个代表事实、一个代表期望。

即原有的标准的QKV 其实是 $Q_q.V_kV_v$ 形式,   而现在我们同时把V 当作K 来使用，得到的简化模式则是 $Qv.Vv$ .

原有的Attention 计算公式：
$$\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$$
现在则变为：
$$\operatorname{Attention}(Q,  V)=\operatorname{softmax}\left(\frac{Q V^{T}}{\sqrt{d_{k}}}\right) V$$

# 实验设置

本文的所有实验，与AGF 论文保持一致，都是在Vanilla Transformer 作为Base， 采用 Tranformer-BIG 模型，数据集为  WMT_17  翻译类型，为了加快训练速度，采用 FP16 训练， LayerNum 设置为3而非默认的6.  硬件为 一块 Tesla V100-PCIE-32GB，每一次训练耗时大概在15小时左右。
默认情况下采用以下配置：
`dim_model = 1024, h = 16, dim_header = dim_model/h = 64`

框架代码基于  https://github.com/OpenNMT/OpenNMT-py  做了些改动，
本文核心模块代码片段参见：https://github.com/windyrobin/AGF/tree/main

## Vanilla-QV 测试

在Vainilla-Transformer 场景、默认的Sinu 位置编码条件下，在采用QV 模式改造后，与原始QKV 方式相比，
其准确度为：

| | |
|:-:|:-:|
|mode|Valid accuracy|
|QV|70.0756|
|QKV|70.5911|
我们看到，其大概损失了 `0.5` 的 Accuracy。

为何会有 `0.5` 的损失， 我们猜测可能有两点：
1. QKV 相对于 QV ，其模式本身更优越，导致其相比QV 准确率更高一些
2. 位置关系计算的影响，QKV 机制中，Q/K 进行了PE相关的位置编码、来计算位置关系的影响，但V是可以不受位置编码的干扰或者干扰较小，但在QV机制中 ，由于V也承担了原有K的位置关系计算的作用，所以被PE所影响程度更大，导致最终准确率下降。

所以, 我们提出一个疑问：这两种的影响各自有多大呢？ PE 位置编码导致的影响有多大？

## AGF 引入

为了消除上述对比中、位置关系计算相关的干扰，我们引入 AGF  相对位置关系形式，把语义信息与位置信息/位置计算逻辑完全隔离开， 并使用标配的 PCM-V 优化手段，

原有公式：
$$a_{m,n}=\frac{\exp \left( \boldsymbol{q}_{m}^{\top} \boldsymbol{k}_{n} / \sqrt{d}  * PosCoeff\right)}{\sum_{i=1}^{L} \exp \left( \boldsymbol{q}_{m}^{\top} \boldsymbol{k}_{i} / \sqrt{d} * PosCoeff\right)}, \quad \boldsymbol{o}_{m}=\sum_{n=1}^{L} a_{m, n} * PosCoeff  * \boldsymbol{v}_{n}.$$
现在变为：
$$a_{m,n}=\frac{\exp \left( \boldsymbol{q}_{m}^{\top} \boldsymbol{v}_{n} / \sqrt{d}  * PosCoeff\right)}{\sum_{i=1}^{L} \exp \left( \boldsymbol{q}_{m}^{\top} \boldsymbol{v}_{i} / \sqrt{d} * PosCoeff\right)}, \quad \boldsymbol{o}_{m}=\sum_{n=1}^{L} a_{m, n} * PosCoeff  * \boldsymbol{v}_{n}.$$

实验得到如下结果：

| | | |
|:-:|:-:|:-:|
|mode|crafts|Valid accuracy|
|QV|default(Sinu PE)|70.0756|
|QKV|default(Sinu PE)|70.5911|
|QV|AGF + PCM-V|70.5188|
|QKV|AGF + PCM-V|70.78|
所以，明显可以看到，引入AGF相对位置计算方式后，QV-AGF 模式下 也能基本达到Vanilla-QKV 的表现，同时它与QKV-AGF的差距缩小到 0.25 左右，即原本的0.5 得分差距中，位置关系的影响约占一半、大约为0.2~0.3。

从此时的实验结果来看，是非常符合我们的预期的，QV 模式也确实能非常逼近QKV 模式的效果，这个结果也为我们上述关于浅层重整(SC）、深层匹配(DM)、QKV/QV 内部逻辑的猜想提供了强大的佐证！

## Why QKV is better

为何 qkv 会比 qv 模式准确率更高一些？  
由深层匹配的定义可知，其逻辑为在某特定方向/特征维度组中、获得与各个维度的匹配程度/相关程度，而同样的一个词比如`girl`，可能会有多个贴切、合适的形容词与其形成修饰关系，所以其计算结果会呈现某种扩散现象，我们称之为 `DODM`（Defusion-Of-Deep-Matching） 
 
![image](https://developer.qcloudimg.com/http-save/yehe-11994913/c77ebf938caa7ff892573d4f5e66b4d6.png)

在QKV 模式中，`DODM` 现象会发生在 V 词组中， 而在QV 模式下，`DODM`则是发生在Q 中，由Attention 的计算公式可知，一方面需要对`q.k` 的点积结果做累加，还需要对不同V的多个得分结果做`softmax`，在QKV 模式在 `DODM` 现象会让目标匹配词在 Query 的特征维度环境下得到进一步的强化与凸显，而 QV 模式下的`DODM` 在某种意义上使得查询方向呈现一定的发散效应。

我们猜测这是 QKV 模式取得更好结果的主要原因。
## MQA/GQA/MLA

在近年来的发展中，GQA/MLA 这类 KV-Shared 模式 取得了很大的成功， 它能极大的减少kv-cache 的数据量，接下去我们尝试解释它们背后的原理与本质.

为简化分析，我们引入最小模型假设，假如我们每个Token/Embedding 会有`N = 6`种词性表达方向，比如动词、形容词、副词、名词等，记作`（a， b，c，d，e，f）`，其可能的修饰关系组合我们记为 `N*N =36` 种，即我们需要总共 36 个header  来计算各自的Attention，假如我们的layers 为6， 即平均每个layer 需要计算6个头,  如何组合/编排他们、来达到优化kv-cache的目的呢？

显然，每一层中，v 仅选择固定的 1个、而q为其余的6个，或者 v 选择其中的2个、为每个v选择对应的 3个q，即：
 `[a, b, c, d, e ,f] ->  a`
或者：
`[a, b, c] ->a , [a, c, e] -> b`
这种情况下，相比散乱无规则的杂乱匹配， 每个layer中，完全可以通过重用 v 来达到减少cache 的目的。

在$QV$  模式中，我们可以轻松实现上述逻辑，但在标准的 $QKV$ 模式中，根据我们的推演逻辑，V_v 是有共享可能的，但Q_q  与 V_k 肯定是一一对应的，不可能存在同一个layer中、多个Q/Header 共享 一个 V_k的问题，MQA/G这个矛盾如何解释呢？

只有一种可能，即MQA/GQA 的本质其实从已经从原始的  $Q_q.V_kV_v$  变化为   $Q_v.K_vV_v$ 的形式， 即它实际是 QV 的变体形式，其中 $K_v$ 其实可以认为是含有位置编码的v、其存在的主要或者唯一意义在于计算位置关系！（此处不考虑D_k != D_v 的情况）

GQA 在业界实践中，通常设定某个固定的值，比如2/4/8，这显然是有优化空间的，有的词性/特征需要考虑更多的Attention方向/Header，而有的可能需要很少的Attention方向就可以，所以MLA 对 k/v 做了一层压缩/提取、然后动态的适配各个Header/Attention；通过这种方法，MLA 相对GQA 取得了更好的模型准确性，代价则是更大的计算开销。

由于MLA 对k/v 都做了深度的压缩，所以不太可能是 $Q_q.V_kV_v$   模式，其本质上可以认为是一种软性的、更优化的 GQA，本质上应该还是  $QV$  模式；

![image](https://developer.qcloudimg.com/http-save/yehe-11994913/e25e978df077d4851f66ae2c2c35c1d1.png)

根据以上分析，我们可以推导得到 GQA/MLA 接下去的优化方向：
1. 如果我们采用类似AGF或者T5/ALiBi 这种位置计算方式的话，K 是可以彻底舍弃的， 此种模式我们可以称为：GQA/MLA-QvVv （此处不考虑`D_k > D_v` 的情况）
2. 由 KV-shared模式变为 V-shared 模式，此时V仍然可以最大程度的shared，但为每个Q 保留一一对应的K，即此时模式转变为原始的 $Q_k.V_kV_v$ ，K会占用相应的存储空间，此时理论上会有更高的准确度.
3. 在MLA中，对K/V的压缩程度是很大，但如果我们把 K 的压缩比例调低，比如与Q的压缩程度保持一致，即保留更多的全局特征，此时其理论上也是可以表达  $Q_q.V_kV_v$ 这种语义的，应该也会有更高的模型准确性。

## Key-After-Value 模式

在标准的$ Q_q.V_kV_v$ 模式下， 在KV-Cache 场景下， V 理论上是有很大的压缩空间/重用的可能的， 但 K 必然与 Q一一对应，其是否有进一步的压缩空间呢？

根据我们对 QKV 的推导定义，K 与 V 是有很强的关联关系， K 可以认为是对 V的特征结果在 token-context 指导/影响之下的深层匹配的计算，即 `K = DM(V， Context)` , 所以理论上，K的计算是可以重用V的信息的。
![image](https://developer.qcloudimg.com/http-save/yehe-11994913/1bfcc03438ba6830c6e03108e60473a5.png)
 原有计算逻辑：

$$\begin{aligned} \operatorname{MultiHead}(Q, K, V) &= \operatorname{Concat}(\mathrm{head}_1, \ldots, \mathrm{head}_h) W^O \\ \text{where } \mathrm{head}_i &= \operatorname{Attention}(Q W_i^Q, K W_i^K, V W_i^V) \end{aligned}$$

现在每个 header 的计算逻辑变为：
$$\mathrm{head}_i = \operatorname{Attention}(Q_i,  K_i,  V_i)$$
$$Q_i = QW_i^Q, \quad V_i = VW_i^V，\quad G = KW_{ctx} \newline $$
$$K_i = [G; V_i] W_i^K$$

此种模式我们称为 QV-Ka (Key-after-value&ctx)

默认情况，`layer_num=3,  dim_model = 1024, h = 16, dim_header = dim_model/h = 64`;
我们分别设置为 dim_ctx  为 dim_header 的 1倍、2倍大小进行测试验证， 得到结果如下：

| | | |
|:-:|:-:|:-:|
|mode|crafts|Valid accuracy|
|QV|default(Sino PE)|70.0756|
|QKV|default(Sino PE)|70.5911|
|QV|AGF + PCM-V|70.5188|
|QKV|AGF + PCM-V|70.7305|
|QV-Ka|（dim_ctx =dim_header）<br>AGF + PCM-V|70.4998|
|QV-Ka|（dim_ctx =2*dim_header）<br>AGF + PCM-V|70.6919|
 
在AGF/PCM-V 框架下，QV、QKV、QV-Ka（2*D_H） 下的性能表现曲线。
![image](https://developer.qcloudimg.com/http-save/yehe-11994913/ebfbbacb2a0cea92129e68f620c3bbaf.jpg)

我们看到在此种场景下，`dim_ctx` 仅需要 `2*dim_header` 的大小，就能达到原始 QKV 模式的效果， 其理论参数量/计算量都是大幅降低的，且在训练的初始阶段，表现甚至比原始QKV 还要好一点  (根据上述我们对Q.K.V 三个因子的理论推导可知，其实 QV-Ka 模式更贴近问题的本质、QKV 模式可以认为是一种近似实现)。

## Conclusion

不同于以往的实验导向或更偏重试验性的模型架构设计与优化，本文先从一个理论推导、可解释性的逻辑来假设、论证QKV/Attention 的本质逻辑，推导得到QV 模式，然后结合 MQA/GQA/MLA 等现象进行分析、归纳，得到MQA/GQA/MLA 其实就是QV 变体的结论，并给出后续的建议优化方向，同时提出 QV-Ka 优化模式并进行论证，实验结果也有力地佐证了我们的理论猜想的合理性；本文的提出的QV/QV-Ka 会直接有助于模型的优化，同时我们也相信本文对 QKV/Attention 的本质逻辑的剖析 可以为 LLM 后续的模型架构优化提供很好的理论参考。
## Limitations

实验环境所限，本文的实验的数据规模、模型参数/层数都还是比较小，在真正的生产大模型LLM 中 还是需要更严格的测试验证.

## Reference

Attention Is All You Need
https://arxiv.org/pdf/1706.03762

Low-Rank Bottleneck in Multi-head Attention Models
https://arxiv.org/abs/2002.07028

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
https://arxiv.org/pdf/2405.04434

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
https://arxiv.org/pdf/2305.13245

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation
https://arxiv.org/abs/2603.04805

本文从常识出发、从自然语言的词性分析/句式分析的视角，深度探讨、推导得到Transformer 模型中 QKV 机制的本质，并据此给出目前流行的MQA/GQA/MLA 等模型架构的合理性解释，引申出相关的优缺点与优化方案；同时提出QV 概念并做实验论证，给出QV-Ka 优化方案并实验证实；本文对于QKV 机制的本质的可解释性的理论分析，可以为未来的模型架构的演进提供理论基础。

[论文速递]QV maybe enough in LLM: MQA/GQA/MLA 的统一解释

本文从常识出发、从自然语言的词性分析/句式分析的视角，深度探讨、推导得到Transformer 模型中 QKV 机制的本质，并据此给出目前流行的`MQA/GQA/MLA` 等模型架构的合理性解释，引申出相关的优缺点与优化方案；同时提出QV 概念并做实验论证，给出QV-Ka 优化方案并实验证实；本文对于QKV 机制的本质的可解释性的理论分析，可以为未来的模型架构的演进提供理论基础。

人工智能

编程语言

算法

本文深入解析Transformer的QKV机制本质，提出QV简化模式及QV-Ka优化方案。通过实验验证，QV模式在AGF框架下接近QKV性能，同时揭示MQA/GQA/MLA实为QV变体。研究为LLM架构优化提供新思路，实验显示QV-Ka方案在降低计算量同时保持模型效果。

数据库

2026采购季 | AI焕新·智启新局

tencentdb-catalog

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云AI代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

功能1上新10个字符

功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符。

功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符。

功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符

功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符

功能4上新

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

精选全网热门MCP server，让你的AI更好用 🚀

💥开发者 MCP广场重磅上线！

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

[论文速递]QV maybe enough in LLM: MQA/GQA/MLA 的统一解释-腾讯云开发者社区-腾讯云

[论文速递]QV maybe enough in LLM: MQA/GQA/MLA 的统一解释

[论文速递]QV maybe enough in LLM: MQA/GQA/MLA 的统一解释

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐