DeepSeek V4 传下周发布，核心架构组件曝光，这次可能是真的

Ai学习的老章

发布于 2026-04-24 21:07:22

870

DeepSeek V4 要来了？这次可能是真的

4 月 19 日，普林斯顿 AI 实验室研究员 Yifan Zhang 在 X 上发了一条极其简短的帖子——"V4, next week."

随后在跟帖里列出了三项架构组件

Yifan Zhang 发布的 V4 预告推文

先说说这个爆料人的背景，判断一下可信度：

Yifan Zhang，本科北大元培、硕士清华姚班，现为普林斯顿大学 AI Lab Fellow

研究方向是大语言模型推理与强化学习，曾在字节跳动 Seed 基础模型团队做过研究实习。

❝个人主页：yfz.ai

需要注意的是，他目前并不在 DeepSeek 任职，DeepSeek 官方截至目前也没有回应任何媒体关于发布时间的问询

但结合以下信号，"下周发布"的可信度相当高：

梁文锋在内部沟通中确认了 4 月下旬发布——这是路透社、创知集等多家媒体独立报道的
Polymarket 预测市场给出 75% 概率在 4 月底前发布，90% 概率在 5 月中旬前
DeepSeek 网页端已经上线"快速模式"和"专家模式"，产品层面的预热动作很明显
DeepSeek 正在乌兰察布规划建设大型数据中心，为后续算力需求做准备
DeepGEMM 在 4 月 16 日推送了重大更新——新增 Mega MoE（融合 MoE 大核）、FP8xFP4 GEMM、FP4 Indexer 等核心组件，而这些正是 V4 传闻架构里的关键原语，开源动作和发布节奏高度吻合

所以虽然 Yifan Zhang 的推文带有"非官方"性质，但综合各方信息来看，这基本就是最后的预热了

Yifan Zhang 在跟帖中提到了 V4 的三项核心架构组件，每一项都对应 LLM 优化里的一条重要方向：

在多查询注意力（MQA）的基础上引入稀疏性。简单说就是：不是每个 token 都去看所有的上下文，只看最相关的部分。

这对百万级上下文窗口来说至关重要。传统注意力机制在处理超长上下文时，算力和显存开销会呈二次方增长。稀疏 MQA 把这个复杂度压到了接近线性（O(N) 到 O(N log N)），使得百万 token 的上下文处理在实际工程中变得可行。

据传 V4 还搭配了一个叫 Lightning Indexer 的组件，可以在几百页的长文档中实现 20ms 以内的检索速度，且不损失连贯性

MoE（Mixture-of-Experts）架构本身 DeepSeek 从 V2 就开始用了，V3 进一步打磨。但 MoE 有个工程痛点：路由判断和专家矩阵乘法是两步操作，中间有大量 kernel 启动和显存搬运的开销

Fused MoE Mega Kernel 把这两步融合进同一个 GPU kernel，直接砍掉了中间的开销。这对推理延迟的优化是非常直接的——从架构层面减少了大量不必要的数据搬运

这也是 DeepSeek 一贯的风格：在工程层面把每一个 cycle 都榨干

这是三个里面最有学术含量的一项。传统 Transformer 用的是残差连接（Residual Connection），就是简单地把输入加到输出上。Hyper-Connections 是对残差连接的泛化，用多条可学习的加权通路替代单一的残差加法。

但早期版本的 Hyper-Connections 有一个致命问题：信号放大会失控，在超大模型中放大倍数可以达到 3000 倍以上，导致训练直接崩溃

DeepSeek 的解决方案叫 mHC（Manifold-Constrained Hyper-Connections）：用 Sinkhorn-Knopp 算法把连接矩阵投影到一个特定的数学流形上，让信号放大严格控制在 2 倍以内

❝论文：arXiv:2512.24880

这项技术的代价只有约 6.7% 的额外计算开销，但换来的是：万亿参数级别的超深超宽模型可以稳定训练

这是 V4 能做到万亿参数的关键基础设施

综合各方报道，V4 目前已知的信息：

特性	详情
参数规模	约 1 万亿（万亿级 MoE），每个 token 激活约 32-37B 参数
上下文窗口	百万级（约 100 万 token）
训练芯片	首次深度适配华为昇腾 950PR 等国产芯片，全栈国产算力
开源协议	Apache 2.0，可商用
API 定价	传闻每百万 token 约 $0.30，是 GPT 旗舰模型的 1/10
产品版本	V4 旗舰版、V4 Lite（轻量版）、V4 Vision（多模态版）
核心架构	Sparse MQA + Fused MoE Mega Kernel + mHC