
DeepSeek V4 要来了?这次可能是真的
4 月 19 日,普林斯顿 AI 实验室研究员 Yifan Zhang 在 X 上发了一条极其简短的帖子——"V4, next week."
随后在跟帖里列出了三项架构组件

Yifan Zhang 发布的 V4 预告推文
先说说这个爆料人的背景,判断一下可信度:
Yifan Zhang,本科北大元培、硕士清华姚班,现为普林斯顿大学 AI Lab Fellow
研究方向是大语言模型推理与强化学习,曾在字节跳动 Seed 基础模型团队做过研究实习。
❝个人主页:yfz.ai
需要注意的是,他目前并不在 DeepSeek 任职,DeepSeek 官方截至目前也没有回应任何媒体关于发布时间的问询
但结合以下信号,"下周发布"的可信度相当高:
所以虽然 Yifan Zhang 的推文带有"非官方"性质,但综合各方信息来看,这基本就是最后的预热了
Yifan Zhang 在跟帖中提到了 V4 的三项核心架构组件,每一项都对应 LLM 优化里的一条重要方向:
在多查询注意力(MQA)的基础上引入稀疏性。简单说就是:不是每个 token 都去看所有的上下文,只看最相关的部分。
这对百万级上下文窗口来说至关重要。传统注意力机制在处理超长上下文时,算力和显存开销会呈二次方增长。稀疏 MQA 把这个复杂度压到了接近线性(O(N) 到 O(N log N)),使得百万 token 的上下文处理在实际工程中变得可行。
据传 V4 还搭配了一个叫 Lightning Indexer 的组件,可以在几百页的长文档中实现 20ms 以内的检索速度,且不损失连贯性
MoE(Mixture-of-Experts)架构本身 DeepSeek 从 V2 就开始用了,V3 进一步打磨。但 MoE 有个工程痛点:路由判断和专家矩阵乘法是两步操作,中间有大量 kernel 启动和显存搬运的开销
Fused MoE Mega Kernel 把这两步融合进同一个 GPU kernel,直接砍掉了中间的开销。这对推理延迟的优化是非常直接的——从架构层面减少了大量不必要的数据搬运
这也是 DeepSeek 一贯的风格:在工程层面把每一个 cycle 都榨干
这是三个里面最有学术含量的一项。传统 Transformer 用的是残差连接(Residual Connection),就是简单地把输入加到输出上。Hyper-Connections 是对残差连接的泛化,用多条可学习的加权通路替代单一的残差加法。
但早期版本的 Hyper-Connections 有一个致命问题:信号放大会失控,在超大模型中放大倍数可以达到 3000 倍以上,导致训练直接崩溃
DeepSeek 的解决方案叫 mHC(Manifold-Constrained Hyper-Connections):用 Sinkhorn-Knopp 算法把连接矩阵投影到一个特定的数学流形上,让信号放大严格控制在 2 倍以内
❝论文:arXiv:2512.24880
这项技术的代价只有约 6.7% 的额外计算开销,但换来的是:万亿参数级别的超深超宽模型可以稳定训练
这是 V4 能做到万亿参数的关键基础设施
综合各方报道,V4 目前已知的信息:
特性 | 详情 |
|---|---|
参数规模 | 约 1 万亿(万亿级 MoE),每个 token 激活约 32-37B 参数 |
上下文窗口 | 百万级(约 100 万 token) |
训练芯片 | 首次深度适配华为昇腾 950PR 等国产芯片,全栈国产算力 |
开源协议 | Apache 2.0,可商用 |
API 定价 | 传闻每百万 token 约 $0.30,是 GPT 旗舰模型的 1/10 |
产品版本 | V4 旗舰版、V4 Lite(轻量版)、V4 Vision(多模态版) |
核心架构 | Sparse MQA + Fused MoE Mega Kernel + mHC |
1. 全栈国产算力,这是最大的信号
V4 如果真的完全跑在华为昇腾芯片上,那意味着 DeepSeek 从 CUDA 迁移到了 CANN 框架,实现全链路国产化
这对整个中国 AI 产业的意义远超一个模型发布本身 —— 它证明了在芯片封锁的条件下,国产算力生态是跑得通的
2. 定价继续卷
每百万 token $0.30,延续了 DeepSeek 一贯的"价格屠夫"风格
V3 时期就已经是业内最便宜的了,V4 在万亿参数的情况下还能维持这个价位,MoE 的稀疏激活功不可没
3. 算力基建正式入场
DeepSeek 之前一直是"轻资产"打法,主要靠算法效率取胜
但 3 月底那次长达 12 小时的宕机暴露了算力瓶颈。这次在乌兰察布规划数据中心、首次启动外部融资(路透社 4 月 17 日报道,估值约 100 亿美元),说明 DeepSeek 已经意识到:光有好算法不够,算力基础设施也得自己掌握
4. 之前"狼来了"过两次
实话实说,V4 之前已经有过两轮"即将发布"的传闻(2 月和 3 月),结果都跳票了
但综合 Yifan Zhang 的爆料、梁文锋的内部确认、产品端的预热动作、以及预测市场的赔率,这次的信号密度确实是最高的
如果 V4 真的在下周发布,它将是:
DeepSeek 从 V2 开始就一直在给行业制造惊喜,V3 更是直接把开源大模型的天花板拉到了跟闭源模型掰手腕的水平。V4 如果能兑现这些技术承诺,那真的可以说是"2026 年国产 AI 的破局之作"
拭目以待,下周分晓
#DeepSeek #DeepSeekV4 #MoE #国产算力 #大模型
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!