首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek-V4 技术报告深度解析

DeepSeek-V4 技术报告深度解析

作者头像
勇哥AI笔记
发布2026-04-28 14:52:19
发布2026-04-28 14:52:19
610
举报
文章被收录于专栏:技术人生黄勇技术人生黄勇

当前大语言模型面临一个根本性的矛盾:

  1. 1. 测试时扩展(Test-Time Scaling)要求模型能处理越来越长的推理链:ChatGPT o1、DeepSeek-R1 等推理模型已经证明,让模型"想得更久"能显著提升性能。
  2. 2. 但原始注意力机制的计算复杂度是 O(n2)O(n^2)O(n2)——序列长度 nnn 每翻一倍,计算量翻四倍。
  3. 当 nnn 达到百万级时,这堵"计算墙"根本翻不过去。

如何在保持注意力机制表达力的前提下,

将其计算复杂度从 O(n2)O(n^2)O(n2) 降到可接受的水平,从而使百万 Token 上下文在工程上可行?

DeepSeek-V4 技术报告讲述了使用哪些技术创新和工程优化做到了这一点:

混合注意力(CSA+HCA)降计算量、mHC 保信号稳定、Muon 优化器加速收敛、全栈工程优化。


摘要

两个模型定位

DeepSeek-V4-Pro

DeepSeek-V4-Flash

总参数

1.6T

284B

激活参数

49B

13B

定位

旗舰版,追求最强性能

轻量版,追求性价比

概念:总参数 vs 激活参数。 MoE 架构下,所有专家的参数加起来是总参数,但每个 Token 只会激活其中一小部分(由路由器决定),这就是激活参数。 总参数决定"知识储备上限",激活参数决定"每次推理的计算成本"。

三大架构创新

  1. 1. 混合注意力(CSA + HCA):论文核心的贡献,
  2. 2. 流形约束超连接(mHC):改进层间信息传递
  3. 3. Muon 优化器:改进训练过程

关键效率数字(百万 Token 上下文,与 V3.2 对比):

指标

V4-Pro

V4-Flash

单 Token 推理 FLOPs

27%

10%

KV 缓存大小

10%

7%

V4-Pro 的激活参数(49B)比 V3.2(约 37B)还多,但计算量反而降至 27%。 这说明效率提升完全来自架构设计,而非单纯的模型缩小。 这是一个非常重要的方法论启示——通过架构创新而非参数削减来实现效率提升

引言

核心论证逻辑是三步走:

Step 1:推理模型建立了测试时扩展的新范式 → 需要更长的上下文

Step 2:原始注意力的 O(n2)O(n^2)O(n2) 复杂度是硬瓶颈 → 长上下文不可行

Step 3:因此,高效长上下文是突破测试时扩展天花板的关键

测试时扩展(Test-Time Scaling) 传统范式是"训练时扩展"——用更多数据和算力训练更大的模型。 测试时扩展是另一种思路——模型训练好后,在推理时投入更多计算(例如让模型生成更长的思维链),也能获得更好的性能。 模型在生成答案时,通过多次采样、自我纠错、展开推理链或进行更深入的搜索(如树搜索、思维树等),投入更多推理时间计算,从而获得更准确、更合理的输出。 DeepSeek-R1 和 OpenAI o1 就是这一范式的代表。但更长的思维链意味着更长的上下文,这就撞上了注意力的 O(n2)O(n^2)O(n2) 瓶颈。

创新之处:DeepSeek-V4 不是在"长上下文"和"高效率"之间做取舍,而是通过架构层面的重新设计,让两者同时成立

这与之前的工作(如单纯增大上下文窗口但承受巨大计算开销)有本质区别。


架构

DeepSeek-V4 的架构保留了 V3 的 Transformer + MoE + MTP 框架,新增了三大组件。

继承自 V3 的设计

混合专家模型(MoE)

概念回顾:MoE(Mixture of Experts)将前馈网络(FFN)替换为一组"专家"网络。

每个 Token 由路由器(Router)分配给少数几个专家处理。DeepSeekMoE 的特色是:

  • 细粒度路由专家:专家数量多但每个较小(如 256 个,中间维度 2048)
  • 共享专家:1 个共享专家,所有 Token 都经过它
  • 每个 Token 激活 k 个路由专家(V4 中 k=6k=6k=6)

为什么需要共享专家? 路由专家各自专精不同知识领域,但有些知识是所有 Token 都需要的(如基本语法、通用语义)。 共享专家承担这类"公共知识"的角色,避免每个路由专家都要学习这些基础能力。

V4 相对 V3 的调整

  1. 1. 亲和度激活函数:Sigmoid → Sqrt(Softplus)动机:Sigmoid 的输出在 0-1 之间,且两端梯度趋近于 0(饱和区),容易导致路由梯度消失。Sqrt(Softplus) 在正区间梯度不会消失,且输出范围更灵活,有助于更精细的专家分配。
  2. 2. 哈希路由:前几层用按 Token ID 的哈希函数决定路由,而非学习型路由器动机:浅层主要处理低级特征(如字符级模式),不需要复杂的路由决策。哈希路由省掉了浅层路由器的计算开销和训练不稳定风险。这呼应了"不是每层都需要同等复杂度的路由"这一设计哲学。
  3. 3. 移除路由目标节点数量限制动机:V3 限制了每个设备上最多接收的 Token 数量(防止负载不均),但这人为约束了路由自由度。V4 通过重新设计并行策略解决了负载均衡问题,因此解除了这个限制。

多 Token 预测(MTP)

概念:传统语言模型每次只预测下一个 Token。

MTP 在主预测头之外增加辅助预测头,同时预测未来多个 Token(V4 中深度为 1,即预测下一个 Token 的辅助头)。

为什么 MTP 有用? 两个好处:① 训练信号更密集——每个位置提供多个梯度信号; ② 推理时可选择性地用 MTP 头做推测解码(Speculative Decoding),加速生成。

V4 继续沿用 V3 的 MTP 配置。


流形约束超连接(mHC)

背景:从残差连接到超连接

残差连接(Residual Connection):xl+1=xl+Fl(xl)\mathbf{x}_{l+1} = \mathbf{x}_l + F_l(\mathbf{x}_l)xl+1=xl+Fl(xl)

这是 Transformer 的标配。

信息从第 lll 层传到第 l+1l+1l+1 层时,直接把输入 xl\mathbf{x}_lxl 加到输出上。

好处是梯度可以"跳过"中间层直接回传(缓解梯度消失),但坏处是信息传递只有一条路径,且"加"操作是固定的。

超连接(Hyperconnection, HC):Xl+1=BlXl+ClFl(AlXl)\mathbf{X}_{l+1} = \mathbf{B}_l \mathbf{X}_l + \mathbf{C}_l F_l(\mathbf{A}_l \mathbf{X}_l)Xl+1=BlXl+ClFl(AlXl)

HC 做了两个升级:

  1. 1. 把残差流从 ddd 维扩展到 nhc×dn_{hc} \times dnhc×d 维(多车道)
  2. 2. 用可学习矩阵 Al,Bl,Cl\mathbf{A}_l, \mathbf{B}_l, \mathbf{C}_lAl,Bl,Cl 替代固定的"加"操作

创新:HC 把残差宽度与隐藏大小解耦了。 隐藏大小 ddd 影响层内计算量,残差宽度 nhcn_{hc}nhc 影响层间信息传递的丰富度。 这是一个独立的缩放轴——你可以在不增加层内计算的前提下,让层间信息传递更丰富。

但 HC 有一个致命问题:堆叠多层后训练容易数值爆炸/崩溃。

原因很简单:Bl\mathbf{B}_lBl 是无约束的矩阵,它的谱范数(最大奇异值)可能大于 1,意味着信号每经过一层就可能被放大,堆叠多层后指数级增长。

mHC 的核心创新:流形约束

mHC 的解法非常优雅:把 Bl\mathbf{B}_lBl 约束到双随机矩阵流形(Birkhoff 多面体)上

概念:双随机矩阵。 一个矩阵 M∈Rn×n\mathbf{M} \in \mathbb{R}^{n \times n}M∈Rn×n 如果满足:① 每行元素之和为 1;② 每列元素之和为 1;③ 所有元素非负。这样的矩阵就是双随机的。

为什么双随机约束有效? 三个数学性质:

  1. 1. 谱范数 ≤ 1:双随机矩阵的最大奇异值不超过 1,因此 ∥Bl∥2≤1\|\mathbf{B}_l\|_2 \leq 1∥Bl∥2≤1,信号不会在传递中被放大——这是"非扩张映射"。
  2. 2. 乘法封闭性:两个双随机矩阵的乘积仍然是双随机矩阵。这意味着无论堆叠多少层 mHC,∏lBl\prod_l \mathbf{B}_l∏lBl 仍然是非扩张的——这是深层堆叠的稳定性保证。
  3. 3. 行/列和为 1:信息在传递过程中"守恒",不会凭空消失或产生——每个输出维度都是输入维度的凸组合。

如何实现约束?Sinkhorn-Knopp 算法

  1. 1. 先生成无约束的原始参数 B~l\tilde{\mathbf{B}}_lB~l
  2. 2. 取指数确保正性:M(0)=exp⁡(B~l)\mathbf{M}^{(0)} = \exp(\tilde{\mathbf{B}}_l)M(0)=exp(B~l)
  3. 3. 交替执行行归一化和列归一化 20 次迭代
  4. 4. 收敛到双随机矩阵

教授点评:Sinkhorn-Knopp 算法是矩阵论中的经典方法,最初用于最优传输问题。DeepSeek 把它引入到深度学习的层间连接设计中,这是一个很好的跨领域知识迁移。20 次迭代是经验值——理论上迭代次数越多越精确,但边际收益递减。

动态参数化

mHC 的 Al,Bl,Cl\mathbf{A}_l, \mathbf{B}_l, \mathbf{C}_lAl,Bl,Cl 不是固定参数,而是根据输入动态生成的:

B~l=αlres⋅Mat(X^lWlres)+Slres\tilde{\mathbf{B}}_l = \alpha_l^{res} \cdot \text{Mat}(\hat{\mathbf{X}}_l \mathbf{W}_l^{res}) + \mathbf{S}_l^{res}B~l=αlres⋅Mat(X^lWlres)+Slres

其中:

  • 动态分量:X^lWlres\hat{\mathbf{X}}_l \mathbf{W}_l^{res}X^lWlres——由当前输入决定
  • 静态分量:Slres\mathbf{S}_l^{res}Slres——固定的偏置
  • 门控因子:αlres\alpha_l^{res}αlres——初始化为小值,让训练初期接近静态行为

创新:动态参数化的意义在于——不同输入需要不同的层间信息传递方式。 对于简单输入,可能只需要"直通"(类似普通残差连接);对于复杂输入,可能需要更精细的混合策略。 门控因子初始化为小值是一个重要的工程技巧,确保训练初期 mHC 接近恒等映射(不破坏已稳定的训练动态),随着训练推进逐渐增加动态调整的幅度。

对 A 和 C 的约束

  • • Al=σ(A~l)\mathbf{A}_l = \sigma(\tilde{\mathbf{A}}_l)Al=σ(A~l):Sigmoid 确保非负且 ∈ (0, 1)
  • • Cl=2σ(C~l)\mathbf{C}_l = 2\sigma(\tilde{\mathbf{C}}_l)Cl=2σ(C~l):Sigmoid 后乘 2,范围 ∈ (0, 2)

为什么 C 的范围是 (0, 2)? 允许 C 略大于 1,使层输出在必要时可以"放大"残差流中的某些分量。这是一个设计选择——如果也限制到 (0, 1),模型可能缺乏足够的表达能力。

mHC 的总开销:论文报告 mHC 的墙钟时间开销仅为流水线阶段的 6.7%,非常轻量。

早在2月份,有猜测DS在官网灰度了mHC训练的模型:春节前这波“偷袭”!DeepSeek 没官宣,但偷偷点了什么技能?

当时有朋友反馈:“1M是很爽,反应速度也是超快。但是性情大变。写作风格也完全不一样了。比较郁闷。还挑我毛病说我打字打错了,还阴阳我。“

现在正式官宣,应该是解决了创新后带来的问题。


混合注意力:CSA + HCA

最核心的创新。

问题背景

标准自注意力的计算复杂度:

FLOPs∝n⋅n⋅d=n2d\text{FLOPs} \propto n \cdot n \cdot d = n^2 dFLOPs∝n⋅n⋅d=n2d

其中 nnn 是序列长度,ddd 是头维度。当 n=106n = 10^6n=106(百万 Token)时,这个数字大得无法承受。此外,KV 缓存的内存占用也线性增长:O(n⋅d)O(n \cdot d)O(n⋅d)。

已有方案及其局限

方案

思路

局限

稀疏注意力(如 Longformer)

每个 Token 只关注局部窗口

丢失长程依赖

线性注意力(如 Linformer)

用低秩近似替代完整注意力

精度损失较大

FlashAttention

优化注意力计算的内存访问

不改变计算复杂度

分块注意力(如 NSA)

分块+稀疏选择

压缩率有限

DeepSeek-V4 的方案是两级压缩

CSA(轻度压缩 + 稀疏选择)和 HCA(重度压缩 + 稠密注意力),交替使用。

压缩稀疏注意力(CSA)

CSA 的流水线:压缩 → 索引选择 → 核心注意力

第 1 步:压缩键值条目

CSA 计算两组 KV 条目 Ca,Cb\mathbf{C}_a, \mathbf{C}_bCa,Cb 及对应压缩权重 Za,Zb\mathbf{Z}_a, \mathbf{Z}_bZa,Zb。然后每 mmm 个 Token 的 KV 条目根据压缩权重加权合并为一个"压缩条目"。

概念:为什么要两组 KV(a 和 b)? 这是 CSA 的一个精巧设计——重叠压缩。每个压缩条目 CiComp\mathbf{C}^{Comp}_iCiComp 不仅来自第 mimimi 到第 m(i+1)−1m(i+1)-1m(i+1)−1 个 Token 的 Ca\mathbf{C}_aCa,还来自第 m(i−1)m(i-1)m(i−1) 到第 mi−1mi-1mi−1 个 Token 的 Cb\mathbf{C}_bCb。也就是说,相邻压缩条目之间有 mmm 个 Token 的信息重叠。

创新:重叠压缩解决了"硬边界"问题。 如果不重叠,第 mmm 个和第 m+1m+1m+1 个 Token 虽然在原文中相邻,却被分到了不同的压缩块,信息联系被人为切断。 重叠让边界处的信息得以保留,减少了压缩带来的信息损失。 实际压缩率为 1m\frac{1}{m}m1(因为每个压缩条目覆盖 2m2m2m 个原始 Token,但相邻条目共享 mmm 个,所以净压缩是 mmm 个原始 Token → 1 个压缩条目)。

概念:压缩权重 Z\mathbf{Z}Z。 不是简单地取平均,而是让模型学习"哪些 Token 更重要,应该在压缩条目中占更大权重"。Softmax 归一化确保权重和为 1。 可学习的位置偏置 B\mathbf{B}B 让模型能考虑位置信息(例如,一个压缩块中间的 Token 可能比边缘的更重要)。

第 2 步:闪电索引器(Lightning Indexer)用于稀疏选择

压缩后,序列长度从 nnn 降到 nm\frac{n}{m}mn。但 nm\frac{n}{m}mn 仍然可能很大(百万 Token / 4 = 25 万)。

CSA 进一步用闪电索引器做稀疏选择,只保留 top-k 个最相关的压缩条目。

索引器的核心计算:

It,s=∑h=1nhIwt,hI⋅ReLU(qt,hI⋅KI,sComp)I_{t,s} = \sum_{h=1}^{n_h^I} \mathbf{w}^I_{t,h} \cdot \text{ReLU}(\mathbf{q}^I_{t,h} \cdot \mathbf{K}^{Comp}_{I,s})It,s=h=1∑nhIwt,hI⋅ReLU(qt,hI⋅KI,sComp)

概念拆解

  • • qt,hI\mathbf{q}^I_{t,h}qt,hI:查询 Token ttt 的第 hhh 个索引器头的查询向量
  • • KI,sComp\mathbf{K}^{Comp}_{I,s}KI,sComp:第 sss 个压缩块的索引器键
  • • ReLU(⋅)\text{ReLU}(\cdot)ReLU(⋅):与标准注意力的 Softmax 不同,这里用 ReLU 产生非负的相似度分数
  • • wt,hI\mathbf{w}^I_{t,h}wt,hI:可学习的头权重,让不同头的贡献可以不同
  • • It,sI_{t,s}It,s:Token ttt 与压缩块 sss 的索引分数

创新分析:闪电索引器与标准注意力有几个关键区别:① 用 ReLU 而非 Softmax——不需要对所有块分配概率,只关心"哪些块足够相关";② 多头 + 加权聚合——比单头的点积更灵活;③ 低秩设计——查询先压缩到 dcd_cdc 维再升维,大幅减少参数量。

概念:低秩设计。查询 Token 先通过 WDQ\mathbf{W}^{DQ}WDQ 降维到 dcd_cdc(查询压缩维度),再通过 WIUQ\mathbf{W}^{IUQ}WIUQ 升维到索引器查询。这比直接从 ddd 维映射到 cI⋅nhIc_I \cdot n_h^IcI⋅nhI 维的参数量少得多(d⋅dc+dc⋅cInhId \cdot d_c + d_c \cdot c_I n_h^Id⋅dc+dc⋅cInhI vs d⋅cInhId \cdot c_I n_h^Id⋅cInhI,当 dc≪dd_c \ll ddc≪d 时差距显著)。而且这个低秩表示在后续的注意力查询中复用,一举两得。

第 3 步:共享键值多查询注意力(Shared-KV MQA)

选好 top-k 压缩条目后,执行核心注意力。

这里有一个重要设计:压缩 KV 条目同时充当 Key 和 Value(MQA 模式)。

概念:MQA(Multi-Query Attention)。标准多头注意力中,每个头有独立的 K 和 V。MQA 中,所有头共享同一组 K 和 V,只有 Q 是每个头独立的。这大幅减少了 KV 缓存的大小——在推理时,不需要为每个头存一份 KV。

创新分析:在 CSA 中使用共享 KV 的 MQA 是一个自然的选择——压缩条目已经是信息的浓缩版本,让不同头共享同一组浓缩信息,同时用各自的查询向量去"解读"它,既节省内存又不损失太多表达能力。

第 4 步:分组输出投影

注意力输出 ot∈Rcnh\mathbf{o}_t \in \mathbb{R}^{c n_h}ot∈Rcnh 的维度可能很大(c=512,nh=64c=512, n_h=64c=512,nh=64 → 32768 维)。

直接投影到 ddd 维(7168)计算量大。

分组策略:把 nhn_hnh 个头分成 ggg 组,每组先投影到 dgd_gdg 维中间表示(dg<cnhgd_g < \frac{c n_h}{g}dg<gcnh),再合并投影到 ddd 维。

创新:这是对标准注意力输出投影的"瓶颈"优化。 本质上是在输出投影中插入了一个低秩瓶颈——先降维再合并升维。在注意力头数很多时效果显著。

重度压缩注意力(HCA)

HCA 与 CSA 的核心区别:

CSA

HCA

压缩率

m=4m = 4m=4

m′=128m&#x27; = 128m′=128

压缩后是否稀疏选择

是(top-k)

否(全量注意力)

KV 组数

2(a、b,重叠压缩)

1(无重叠)

定位

"精读"——保留更多细节

"泛读"——极端压缩换速度

创新:为什么 HCA 不做稀疏选择? 因为 m′=128m&#x27; = 128m′=128 的压缩率已经把序列长度降到了原来的 1128\frac{1}{128}1281——百万 Token 只剩约 7800 个压缩条目。 这个量级已经足够小,全量注意力的计算量可接受,而且全量注意力能避免稀疏选择可能遗漏的重要信息。

CSA 和 HCA 交替使用的动机:不同层需要不同粒度的长程信息。 浅层可能只需要大致的背景上下文(用 HCA),深层需要更精确的相关信息(用 CSA)。 这种"粗细搭配"的设计兼顾了效率和精度。

其他设计细节

查询和 KV 条目归一化

在核心注意力之前,对查询的每个头和 KV 条目的唯一头额外做 RMSNorm。

动机:防止注意力 logits(即 q⋅k\mathbf{q} \cdot \mathbf{k}q⋅k 的值)爆炸。当向量范数很大时,点积值可能非常大,导致 Softmax 输出接近 one-hot(注意力坍缩到单个位置),梯度消失。RMSNorm 把向量归一化到单位范数附近,有效防止了这个问题。

创新之处:正因为可以直接在查询和 KV 上做 RMSNorm,DeepSeek-V4 不需要在 Muon 优化器中使用 QK-Clip 技术(一种额外的裁剪策略)。这是架构设计和优化器选择的协同——架构层面解决了问题,优化器层面就不需要补丁。

部分旋转位置编码(RoPE)

只对查询和 KV 向量的最后 64 维应用 RoPE,其余维度不加位置编码。

概念:RoPE(Rotary Position Embedding)。RoPE 通过旋转向量来编码位置信息——相同位置的两个向量内积最大,距离越远内积越小。这是目前最流行的位置编码方案。

创新分析:部分 RoPE 是一个重要设计。在 CSA/HCA 中,KV 条目同时充当 Key 和 Value。如果对整个向量加 RoPE,那么注意力输出(Value 的加权和)会携带绝对位置信息,这不是我们想要的——我们希望输出携带的是相对位置信息。解决方案:① 只在部分维度加 RoPE,未加的部分不携带位置信息;② 对注意力输出也应用反向 RoPE,"抵消"掉绝对位置编码,留下相对位置编码。

滑动窗口附加分支

每个查询 Token 除了关注压缩 KV 条目外,还额外关注最近的 nwin=128n_{win} = 128nwin=128 个未压缩 Token。

动机:压缩过程不可避免地丢失局部细节。而语言建模中,紧邻的上下文通常最重要。滑动窗口分支保证了局部信息的完整保留——无论压缩多么激进,"眼前"的内容一定是原汁原味的。

注意力锚点(Attention Sink)

引入可学习的汇聚 logits {z1′,…,znh′}\{z&#x27;_1, \ldots, z&#x27;_{n_h}\}{z1′,…,znh′},加到 Softmax 分母上:

sh,i,j=Exp(zh,i,j)∑kExp(zh,i,k)+Exp(zh′)s_{h,i,j} = \frac{\text{Exp}(z_{h,i,j})}{\sum_k \text{Exp}(z_{h,i,k}) + \text{Exp}(z&#x27;_h)}sh,i,j=∑kExp(zh,i,k)+Exp(zh′)Exp(zh,i,j)

概念:注意力锚点。这个技术最初由 StreamingLLM 提出。问题场景:在流式推理中,当上下文不断增长时,注意力分布可能出现异常——第一个 Token 或某些特定位置吸引大量注意力(成为"汇聚点"),如果强制逐出这些 Token,模型输出会崩溃。锚点通过给每个头一个可学习的"垃圾桶"选项,让模型可以把不需要的注意力分配给锚点,而不是强制分配给某个真实 Token。

创新分析:在压缩注意力场景下,注意力锚点还有另一个好处——它允许注意力分布的总和小于 1(因为分母多了 Exp(zh′)\text{Exp}(z&#x27;_h)Exp(zh′)),模型可以"选择不关注"某些压缩块,这对稀疏注意力更自然。

效率总结

以 BF16 GQA8(头维度 128)为基线,DeepSeek-V4 的 KV 缓存仅为基线的约 2%

成果:2% 这个数字令人震撼。 百万 Token 下,GQA8 基线的 KV 缓存约 106×128×2×210^6 \times 128 \times 2 \times 2106×128×2×2(层数×头维度×K+V×BF16 字节)≈ 数百 GB。 V4 降至约 2% 即数 GB——这从"放不进 GPU 内存"变成了"放得下",是质变而非量变。


Muon 优化器

背景

AdamW 是当前最主流的优化器,

核心思想是:对每个参数维护一阶动量和二阶动量(梯度的移动平均和梯度平方的移动平均),自适应地调整每个参数的学习率。

Muon 的思路完全不同:对梯度矩阵做正交化,强制每次更新的方向互相垂直

Muon 的算法

代码语言:javascript
复制
对每个权重 W ∈ R^(n×m):
  1. G_t = 计算梯度
  2. M_t = μM_{t-1} + G_t          // 累积动量
  3. O&#x27;_t = HybridNewtonSchulz(μM_t + G_t)  // Nesterov + 正交化
  4. O_t = O&#x27;_t · √max(n,m) · γ     // 重缩放
  5. W_t = W_{t-1}·(1-ηλ) - ηO_t    // 权重衰减 + 更新

概念:正交化。 给定矩阵 M=UΣVT\mathbf{M} = \mathbf{U}\Sigma\mathbf{V}^TM=UΣVT(SVD 分解),正交化是指求 UVT\mathbf{U}\mathbf{V}^TUVT——去掉奇异值的影响,只保留方向信息。 Newton-Schulz 迭代是一种近似正交化的方法,不需要显式做 SVD。

概念:Nesterov 技巧。 标准动量用 μMt−1+Gt\mu M_{t-1} + G_tμMt−1+Gt 计算更新方向。Nesterov 改为 μMt+Gt=μ(μMt−1+Gt)+Gt\mu M_t + G_t = \mu(\mu M_{t-1} + G_t) + G_tμMt+Gt=μ(μMt−1+Gt)+Gt——"先往前看一步,再决定方向"。 这通常比标准动量收敛更快。

混合 Newton-Schulz 迭代

两个阶段:

  • • 前 8 步:系数 (3.4445,−4.7750,2.0315)(3.4445, -4.7750, 2.0315)(3.4445,−4.7750,2.0315)——快速逼近正交
  • • 后 2 步:系数 (2,−1.5,0.5)(2, -1.5, 0.5)(2,−1.5,0.5)——精确稳定在正交

创新:单一系数的 Newton-Schulz 迭代在收敛速度和精度之间有 trade-off——激进系数收敛快但可能振荡,保守系数稳定但慢。 混合策略是两全其美:先用激进系数快速逼近,再切换到保守系数做精修。 这种"粗调+精调"的思想在优化算法中很常见(如学习率预热+余弦退火),但具体应用到 Newton-Schulz 迭代上是新的。

哪些用 Muon,哪些用 AdamW?

  • Muon:大部分权重(MoE 专家、注意力投影等矩阵参数)
  • AdamW:嵌入层、预测头、mHC 静态偏置/门控因子、RMSNorm 权重

创新:Muon 适合矩阵参数(因为正交化操作是矩阵级的),不适合向量参数(如偏置)或低维参数(如 RMSNorm 的缩放因子)。 这个分配策略是合理的。


基础设施

架构创新决定了理论上限,工程实现决定了能否落地。

DeepSeek-V4 的基础设施工作有两个特点:全栈自研软硬件协同设计

专家并行中的细粒度通信-计算重叠

问题

MoE 的专家并行(Expert Parallelism, EP)中,Token 需要在 GPU 之间传送(Dispatch),计算完后还需要传回(Combine)。

通信和计算如果串行执行,通信延迟会严重拖慢整体速度。

基本事实

在单个 MoE 层内,通信总时间 < 计算总时间

这意味着如果把通信和计算重叠(流水线化),计算始终是瓶颈,通信可以被"隐藏"。

细粒度波次调度

把专家分成小波次(wave),每个波次:

  • • 当前波次的 Token 正在被计算
  • • 下一波次的 Token 正在被传输(Dispatch)
  • • 上一波次的结果正在被发回(Combine)

三件事同时进行,形成细粒度流水线。

创新:粗粒度重叠(整个 MoE 层级)的问题是需要等待所有专家完成通信后才能开始计算,长尾延迟严重。 细粒度波次调度把等待粒度从"整个层"降到"一小波专家",大幅减少了空闲时间。 这对 RL rollout 等小批量场景尤其重要(小批量下长尾效应更严重)。

给硬件厂商的建议

论文喊话硬件厂家四条非常务实的建议:

  1. 1. 计算-通信比比绝对带宽更重要:论文推导了通信可完全隐藏的充要条件 C/B≤Vcomp/VcommC/B \leq V_{comp}/V_{comm}C/B≤Vcomp/Vcomm。
  2. 对于 V4-Pro,这个阈值是 6144 FLOPs/Byte,即每 GBps 带宽可隐藏 6.1 TFLOP/s 计算。超过这个阈值再增加带宽只是浪费硅片面积。
  3. 2. 功耗预算:极致内核融合让计算、内存、网络同时满负荷,GPU 可能撞功耗墙而降频。建议硬件设计为这种全并发场景预留功耗余量。
  4. 3. 通信原语:当前硬件的跨 GPU 通知延迟太高,只能用"拉取"模式。如果未来硬件能提供更低延迟的信令机制,"推送"模式会更自然高效。
  5. 4. 激活函数:SwiGLU 涉及指数运算(Sigmoid 门控)和逐元素乘法,是 GEMM 后处理的性能负担。建议设计更简单的激活函数。

创新:这些建议反映了一个趋势——软件团队不再只是"适配硬件",而是主动向硬件团队提出需求。 这是软硬件协同设计的深化。 尤其第 1 条建议非常反直觉——业界普遍认为"带宽越多越好",但论文用数学证明了存在一个平衡点,超过它增加带宽的边际收益为零。

TileLang

TileLang 是一种用于编写高性能计算内核的领域特定语言(DSL)。

为什么需要自研 DSL? DeepSeek-V4 的架构包含大量非常规操作(CSA 压缩、闪电索引器、mHC 的 Sinkhorn 迭代等),这些操作在 PyTorch/CUDA 的标准算子库中没有对应实现。 用纯 CUDA 写太底层、开发效率低;用 PyTorch 写太高层、性能不够。TileLang 在两者之间找到了平衡。

三个关键特性:

  1. 1. 宿主代码生成:减少 CPU 端的内核启动开销(从数百微秒降到不到 1 微秒)
  2. 2. Z3 SMT 求解器:自动分析张量索引的形式整数约束,辅助编译器优化
  3. 3. 数值精度优先:默认禁用快速数学优化,确保逐位可复现性

批次不变性和确定性

概念:批次不变性——同一个 Token,无论它在批次中的第几个位置,输出必须逐位相同。

为什么这很重要? 标准 CUDA 内核为了最大化 GPU 利用率,会根据批次大小调整并行策略(如 split-KV 把一个序列的注意力计算分配到多个 SM 上)。 这导致同一个 Token 在不同批次大小下可能产生不同的数值结果。对于训练-推理一致性、调试和 A/B 测试,这是不可接受的。

DeepSeek 的解法:

  • • 注意力:双内核策略(小批量用单 SM 内核,大批量用多 SM 内核,但保证结果一致)
  • • 矩阵乘法:用 DeepGEMM 替换 cuBLAS

确定性训练:同样的输入和随机种子,训练过程产生完全相同的结果。

为什么需要确定性? 非确定性训练中,如果出现 loss spike,你无法判断是 bug 还是数值随机性导致的。 确定性训练让问题可复现、可调试。 代价是通常要牺牲一些性能(不能用原子操作,需要分配额外缓冲区)。 DeepSeek 通过独立累积缓冲区和确定性归约实现了确定性,且性能损失可控。

FP4 量化感知训练

量化感知训练(QAT):在训练过程中模拟量化带来的精度损失,让模型提前适应,这样部署时用低精度权重不会掉精度。

DeepSeek-V4 对两部分做 FP4 量化:

  1. 1. MoE 专家权重:FP32 主权重 → FP4 存储 → FP8 计算关键发现:FP4 → FP8 的反量化是无损的。因为 FP8(E4M3)比 FP4(E2M1)多 2 个指数位,动态范围更大。只要 FP4 量化后的值在 FP8 的可表示范围内,反量化就是精确的。这意味着 QAT 流水线可以完全复用 FP8 训练框架——训练时用 FP8,存储时用 FP4,中间无损转换。
  2. 2. CSA 索引器的 QK 路径:QK 激活以 FP4 存储、加载和相乘,加速长上下文下的注意力分数计算。

创新分析:FP4 用于索引器 QK 路径是一个巧妙的选择——索引器只负责"粗筛"(判断哪些压缩块相关),不需要高精度。用 FP4 加速这一步对最终精度影响极小,但能显著减少长上下文下的注意力计算量。

训练框架

几个关键适配:

  1. 1. Muon + ZeRO 的兼容:Muon 需要完整梯度矩阵做正交化,而 ZeRO 通过分片减少内存。
  2. DeepSeek 设计了混合 ZeRO 桶分配策略,并用量化梯度减半通信量。
  3. 2. mHC 的低成本实现:mHC 的动态参数化涉及大量小矩阵运算。通过融合内核 + 选择性检查点 + 调整 DualPipe 流水线,将开销限制在 6.7%。
  4. 3. 压缩注意力的上下文并行:传统 CP 按序列维度切分,但 CSA/HCA 的压缩操作跨边界。
  5. 两阶段通信:先传跨边界的未压缩 KV,再做全收集。

推理框架

异构 KV 缓存管理

DeepSeek-V4 的 KV 缓存包含多种类型:压缩 KV 条目(CSA/HCA)、未压缩尾部 Token、滑动窗口 Token、索引器键。每种类型大小不同、更新规则不同。

创新:传统推理框架的 KV 缓存是同构的(所有 Token 的 KV 条目大小相同),管理简单。 DeepSeek-V4 的异构 KV 缓存管理更复杂,但这是混合注意力架构的必然代价。 论文把 SWA 和未压缩尾部 Token 视为"状态空间模型"——大小固定、只取决于当前位置——从而可以预分配固定大小的缓存池,简化管理。

磁盘 KV 缓存存储

对于共享前缀的请求(如相同的系统提示词),把前缀的 KV 缓存存到磁盘,新请求直接复用。

三种 SWA 缓存策略:

  • 完整 SWA 缓存:零计算冗余,但存储密集
  • 周期性检查点:可调节的存储-计算权衡
  • 零 SWA 缓存:零存储,但需更多重计算

创新:这三种策略本质上是在存储和计算之间做 trade-off。实际部署中可以根据 GPU 内存大小和请求模式动态选择。


预训练数据构建

训练数据量:超过 32T Token(约 32 万亿)

数据构成

  • • 数学和编程语料:核心组成,决定了推理和编码能力的上限
  • • 网页文本:过滤了 AI 生成的批量内容和模板化内容(缓解模型崩溃风险)
  • • 多语言语料:扩大对不同文化长尾知识的覆盖
  • • 长文档:科学论文、技术报告等反映独特学术价值的材料
  • • 智能体数据:训练中期加入,增强编码和工具使用能力

模型崩溃(Model Collapse)。 如果训练数据中包含 AI 生成的文本,模型会在这些文本上"过拟合"到自己风格的输出,导致多样性下降、质量退化,形成正反馈循环。 过滤 AI 生成内容是当前预训练数据工程的标准做法。

创新:训练中期引入智能体数据是一个有意思的设计选择。 传统做法是在后训练阶段才引入特定能力的数据。 在预训练中期就引入智能体数据,意味着模型在预训练阶段就建立了编码和工具使用的基本能力,后训练只需要在此基础上强化。 这可能是 V4 在代码智能体任务上表现突出的原因之一。

模型配置

DeepSeek-V4-Pro 的关键配置

配置项

设计考量

层数

61

更深 → 更强的层级表示

隐藏维度

7168

更宽 → 更大的表示容量

路由专家数

384

更多专家 → 更细的知识分工

每专家中间维度

3072

每个专家的计算量

每 Token 激活专家数

6

平衡计算成本和能力

CSA 压缩率

4

每 4 个 Token 压缩为 1 个

HCA 压缩率

128

每 128 个 Token 压缩为 1 个

滑动窗口

128

保留最近 128 个 Token 的完整信息

训练稳定性

这是大模型训练中最"痛苦"的部分。

问题:训练万亿参数 MoE 模型时,会随机出现 loss spike(损失突然飙升),导致模型输出崩溃。

简单回滚可以临时恢复,但不能防止再次发生。

根因分析:loss spike 与 MoE 层的异常值相关,路由机制会加剧异常值的产生,形成恶性循环。

前瞻路由(Anticipatory Routing)

核心思想:在步骤 ttt,用参数 θt\theta_tθt 做特征计算,但路由索引用上一步的参数 θt−Δt\theta_{t-\Delta t}θt−Δt 计算。

为什么"滞后"的路由反而更好? 想象路由和骨干网络是两个互动的系统。如果它们同步更新,可能形成正反馈循环——异常路由 → 异常特征 → 更异常的路由。 把路由更新"滞后"一步,就打破了这种同步耦合,异常值来不及被路由放大就被下一步的更新修正了。

创新:前瞻路由的本质是解耦路由决策和特征计算的时间尺度。 这和控制系统中的"采样-保持"策略类似——在控制信号更新时保持执行器不变,避免高频振荡。 论文报告这个技巧以可忽略的开销避免了 loss spike,且不影响最终性能。

SwiGLU 截断

对 SwiGLU 激活函数的输出做硬截断:线性分量限制在 [-10, 10],gate 分量上限 10。

意外:这个技巧非常"工程化"——没有优雅的数学推导,就是发现超过某个阈值的激活值是异常的、有害的,直接截掉。 但效果确实好。这也反映了当前大模型训练的一个现实:我们对训练动态的理解还远远不够,很多有效的方法是经验性的。


后训练流程

总体框架:专家训练 → 在线策略蒸馏

这是一个两阶段范式:

第一阶段:训练多个领域专家(数学、编码、智能体、指令遵循等)。每个专家 = 监督微调(SFT)+ 强化学习(GRPO)。

第二阶段:通过在线策略蒸馏(OPD)把所有专家的能力整合到一个统一模型中。

我们在使用模型时,感觉到模型在解题,写代码,复杂任务多步骤执行方面有所提升,

相对于早期就只会对话不可同日而语,就是后训练阶段的功劳。

概念对比:OPD vs 传统方法

方法

思路

局限

权重合并

多个专家权重的加权平均

不同专家的参数空间不对齐,合并后性能退化

混合 RL

所有领域的奖励信号混合训练

不同领域的奖励可能冲突

OPD

学生在自己生成的轨迹上学习教师的输出分布

计算成本高,但效果最好

专家训练

推理力度(Reasoning Effort):三个模式

模式

特征

温度

上下文窗口

Non-think

直觉响应,无显式推理

1.0

8K

Think

有意识的推理过程

1.0

128K

Think Max

推理推到极致

1.0

384K

推理力度。这个概念对应的是"测试时计算量"的分配策略。 Non-think 模式几乎不花额外计算在推理上,直接给答案; Think 模式允许模型花更多 Token 思考; Think Max 强制模型做最详尽的推理。 这和 OpenAI o1/o3 的 low/medium/high reasoning effort 是同一思路,但 DeepSeek 把它做成了三个独立训练的专家,而非通过单一模型的温度/长度控制实现。

创新:三个模式分别训练专家,而非用同一个模型调节参数,这意味着每个模式都可以独立优化到最佳状态。 Think Max 的专家在 RL 训练时用了更大的长度惩罚和上下文窗口,确保它能在长推理链上稳定优化。 这种"分治"策略比"一刀切"更灵活。

生成式奖励模型(GRM)

传统 RLHF 流程:训练一个标量奖励模型(人类标注的偏好数据)→ 用奖励模型指导策略优化。

DeepSeek-V4 的做法:不训练标量奖励模型,而是用生成式奖励模型——让模型自己生成评估判断,然后对 GRM 本身也做 RL 优化。

感觉这才是模型自己训练自己,比GPT-5.5官方稿里提到用GPT-5.4优化了某个步骤的算法,是模型自己训练自己,差距立判。

创新:标量奖励模型有两个问题: ① 需要大量人工标注;② 标量分数信息量有限(只知道"好/坏"的程度,不知道"为什么好/为什么坏")。 GRM 让模型生成详细的评估理由,信息量远大于一个分数。 更关键的是,GRM 本身也通过 RL 优化——模型同时在学习"做题"和"批改",两种能力互相促进。

交错思考(Interleaved Thinking)

V3.2:新用户消息到达时丢弃之前的思考痕迹 → 每轮从零开始推理

V4:工具调用场景下保留所有思考痕迹 → 跨轮次累积推理

创新分析:这个优化只有在百万 Token 上下文窗口下才有意义——之前的模型"想保留也保留不了"(上下文窗口不够大)。V4 的长上下文能力使得"保留所有思考"成为可能,这是架构能力解锁新应用模式的典型案例。

快速指令(Fast Instructions)

把辅助任务(意图识别、搜索触发等)编码为特殊 Token,附加到输入序列中,复用已有的 KV 缓存。

创新分析:传统做法是调用独立的小模型做辅助判断,需要重新预填充输入(冗余计算)。快速指令把辅助任务嵌入到主模型的推理过程中,零额外预填充开销。这是"统一模型做所有事"vs"多模型协作"两种范式的折中——用同一个大模型,但通过特殊 Token 触发不同行为模式。

在线策略蒸馏(OPD)

数学公式

LOPD(θ)=∑i=1Nwi⋅DKL(πθ∥πEi)\mathcal{L}_{OPD}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{KL}(\pi_\theta \| \pi_{E_i})LOPD(θ)=i=1∑Nwi⋅DKL(πθ∥πEi)

逆 KL 散度 DKL(πθ∥πEi)D_{KL}(\pi_\theta \| \pi_{E_i})DKL(πθ∥πEi)。KL 散度衡量两个分布的差异。注意这里学生 πθ\pi_\thetaπθ 在前(逆 KL),而非教师 πEi\pi_{E_i}πEi 在前(正 KL)。 逆 KL 是"模式寻求"(mode-seeking)——学生倾向于精确匹配教师的某个模式; 正 KL 是"模式覆盖"(mode-covering)——学生试图覆盖教师的所有模式,可能分散注意力。 在蒸馏场景下,逆 KL 让学生更专注于教师最擅长的领域。

"在线策略"。 学生模型从自己生成的轨迹上学习(而非从固定的数据集上学习)。 这意味着学生的训练数据分布与其当前策略一致,避免了分布偏移问题。

完整词汇表 logit 蒸馏

先前工作通常把完整词汇表的 KL 损失简化为 Token 级估计(只采样一个 Token 计算 KL),节省计算但梯度方差高。

DeepSeek-V4 保留完整 logit 分布计算 KL 损失,梯度更稳定。

创新:这是一个"精度换效率"的经典 trade-off。 DeepSeek 选择了精度——因为他们有十多个教师模型,高方差的梯度估计在多教师场景下会放大不稳定性。 完整词汇表蒸馏的计算成本更高,但换来了更稳定的训练和更忠实的知识传递。

RL 和 OPD 基础设施

几个值得关注的工程创新:

可抢占 Rollout 服务

GPU 集群使用可抢占调度器,高优先级任务可以抢占低优先级任务的 GPU。

为防止生成请求被中断后丢失进度,实现了 Token 粒度的预写日志(WAL)——每生成一个 Token 就立即写入 WAL,被抢占后可以从最后一个完成的 Token 恢复。

DSec 沙箱平台

用 Rust 写的三个组件(API 网关、主机代理、集群监控器),管理数十万个并发沙箱实例。

这是评估代码智能体和训练工具使用能力的必要基础设施——模型生成的代码需要在安全的隔离环境中执行和验证。

创新:DSec 的规模(数十万并发沙箱)反映了当前 RL 训练对执行环境的需求量级。 每个 RL rollout 可能涉及多次工具调用和代码执行,成千上万的并行 rollout 需要同样数量级的沙箱实例。 这是后训练基础设施中容易被忽视但至关重要的环节。


核心基准结果

知识维度

基准

V4-Pro Max

最强闭源(Gemini-3.1-Pro)

差距

SimpleQA-Verified

57.9

75.6

-17.7

Chinese-SimpleQA

84.4

85.9

-1.5

MMLU-Pro

87.5

91.0

-3.5

推理维度

基准

V4-Pro Max

表现

Codeforces Rating

3206

开源首次匹敌闭源,人类选手排名第 23

LiveCodeBench

93.5

超越所有对手(包括闭源)

HMMT 2026 Feb

95.2

竞赛数学顶级水平

Apex Shortlist

90.2

所有模型中最高

结论:知识维度与闭源的差距仍然明显(尤其是 SimpleQA-Verified 差了 17.7 个百分点),这反映了训练数据质量和知识密集度的差距。 但在推理维度,DeepSeek-V4- Pro Max 已经非常接近甚至在某些任务上超越了闭源模型。 这说明推理能力更多取决于架构和训练方法,而知识能力更多取决于数据

百万 Token 上下文

  • • MRCR 1M:83.5(超越 Gemini-3.1-Pro 的 76.3,仅次于 Opus 4.6 的 92.9)
  • • 检索性能在 128K 内高度稳定,128K 后有下降但百万 Token 处仍强劲

结论:128K 内的稳定性说明 CSA/HCA 的压缩在中等长度下几乎没有精度损失。 128K 后的下降是预期的——压缩率越高,信息损失越大,越长的上下文积累越多损失。 但整体水平仍然非常强,证明混合注意力方案的有效性。

再放一下官方公布榜单测试的成绩,红色是领先的领域。

Agent 和推理能力大幅提升,达到领先水平。

这个方向跟 GLM-5.1 更新时技术团队的思路是一致的:让大模型能真实的干活:

8小时从零构建Linux桌面 |最强开源模型 GLM-5.1

真实世界任务

中文写作:功能写作胜率 62.7% vs Gemini-3.1-Pro 34.1%

白领任务:不败率 63% vs Opus-4.6-Max

代码智能体:超越 Sonnet 4.5,接近 Opus 4.5

教授点评:标准化基准和真实世界表现之间总是有 gap。DeepSeek 的内部指标(中文写作、白领任务、代码智能体)更能反映产品的实际用户体验。这些指标上 V4-Pro 的表现比标准化基准更亮眼,可能是因为:① 后训练的 OPD 流程更偏重实用性而非刷榜;② 中文场景的优化更充分。


核心贡献总结

  1. 1. CSA + HCA 混合注意力:首个在百万 Token 上下文下实现 90%+ KV 缓存压缩的实用方案
  2. 2. mHC:解决了超连接在深层堆叠时的不稳定性问题,为残差连接的升级提供了可行路径
  3. 3. Muon 优化器:在大规模 MoE 训练中验证了矩阵级正交化的有效性
  4. 4. 全栈工程优化:从内核到框架到推理部署,每个环节都有创新

局限

  1. 1. 架构复杂度高:CSA + HCA + mHC + MoE + MTP + 滑动窗口 + 注意力锚点……组件太多,不够优雅
  2. 2. 训练稳定性的原理未明:前瞻路由和 SwiGLU 截断是经验性的,缺乏理论解释
  3. 3. 知识维度仍有差距:与最先进的闭源模型在事实性知识上差距明显

未来方向

  1. 1. 架构精简——将复杂设计提炼到最核心的形式
  2. 2. 新维度的稀疏性——如稀疏嵌入
  3. 3. 低延迟长上下文——让百万 Token 交互更实时
  4. 4. 长程多轮智能体任务
  5. 5. 多模态能力
  6. 6. 更好的数据策展和合成策略

总结: DeepSeek-V4 的核心方法论是以长上下文效率为北极星指标,围绕它做架构-优化-工程的协同创新。 这种"一个核心问题驱动全栈创新"的研究范式值得学习。 同时,论文坦诚地承认了架构复杂性和理论理解不足的问题。


附录:核心概念索引

概念

定义

MoE

混合专家模型,每个 Token 只激活部分专家

MTP

多 Token 预测,同时预测未来多个 Token

HC

超连接,扩展残差流宽度并用可学习矩阵混合

mHC

流形约束超连接,将 HC 的残差映射约束到双随机矩阵流形

Birkhoff 多面体

双随机矩阵的集合,行/列和为 1 且元素非负

Sinkhorn-Knopp

交替行列归一化算法,用于投影到双随机矩阵流形

CSA

压缩稀疏注意力,轻度压缩 + top-k 稀疏选择

HCA

重度压缩注意力,极端压缩 + 稠密注意力

闪电索引器

CSA 中的稀疏选择模块,用多头 ReLU 点积计算索引分数

MQA

多查询注意力,所有头共享 KV

RoPE

旋转位置编码,通过旋转向量编码位置信息

注意力锚点

可学习的汇聚 logits,允许注意力分布总和小于 1

Muon

矩阵正交化优化器,对梯度做 Newton-Schulz 正交化

Newton-Schulz

近似正交化的迭代算法,无需显式 SVD

EP

专家并行,将 MoE 专家分布到不同 GPU

QAT

量化感知训练,在训练中模拟量化精度损失

FP4

4 位浮点数格式,MXFP4 子字节格式

GRPO

组相对策略优化,DeepSeek 的 RL 算法

GRM

生成式奖励模型,用生成式判断替代标量打分

OPD

在线策略蒸馏,学生从自己的轨迹上学习教师的分布

逆 KL 散度

模式寻求的 KL 散度方向,适合蒸馏

前瞻路由

用上一步的路由决策指导当前步的计算,解耦路由和特征更新

SwiGLU 截断

对 SwiGLU 激活值做硬截断,防止异常值

DSec

DeepSeek 弹性计算沙箱平台

论文地址:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

-END-

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术人生黄勇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
    • 引言
  • 架构
    • 继承自 V3 的设计
      • 混合专家模型(MoE)
      • 多 Token 预测(MTP)
    • 流形约束超连接(mHC)
      • 背景:从残差连接到超连接
      • mHC 的核心创新:流形约束
      • 动态参数化
      • 对 A 和 C 的约束
    • 混合注意力:CSA + HCA
      • 问题背景
      • 压缩稀疏注意力(CSA)
      • 重度压缩注意力(HCA)
      • 其他设计细节
      • 效率总结
    • Muon 优化器
      • 背景
      • Muon 的算法
      • 混合 Newton-Schulz 迭代
      • 哪些用 Muon,哪些用 AdamW?
  • 基础设施
    • 专家并行中的细粒度通信-计算重叠
      • 问题
      • 基本事实
      • 细粒度波次调度
      • 给硬件厂商的建议
    • TileLang
    • 批次不变性和确定性
    • FP4 量化感知训练
    • 训练框架
    • 推理框架
      • 异构 KV 缓存管理
      • 磁盘 KV 缓存存储
  • 预训练数据构建
    • 模型配置
    • 训练稳定性
      • 前瞻路由(Anticipatory Routing)
      • SwiGLU 截断
  • 后训练流程
    • 总体框架:专家训练 → 在线策略蒸馏
    • 专家训练
    • 在线策略蒸馏(OPD)
    • RL 和 OPD 基础设施
  • 核心基准结果
    • 真实世界任务
  • 核心贡献总结
    • 局限
    • 未来方向
  • 附录:核心概念索引
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档