首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek V4 传下周发布,核心架构组件曝光,这次可能是真的

DeepSeek V4 传下周发布,核心架构组件曝光,这次可能是真的

作者头像
Ai学习的老章
发布2026-04-24 21:07:22
发布2026-04-24 21:07:22
870
举报

DeepSeek V4 要来了?这次可能是真的

4 月 19 日,普林斯顿 AI 实验室研究员 Yifan Zhang 在 X 上发了一条极其简短的帖子——"V4, next week."

随后在跟帖里列出了三项架构组件

Yifan Zhang 发布的 V4 预告推文
Yifan Zhang 发布的 V4 预告推文

Yifan Zhang 发布的 V4 预告推文

消息源可信度分析

先说说这个爆料人的背景,判断一下可信度:

Yifan Zhang,本科北大元培、硕士清华姚班,现为普林斯顿大学 AI Lab Fellow

研究方向是大语言模型推理与强化学习,曾在字节跳动 Seed 基础模型团队做过研究实习。

个人主页:yfz.ai

需要注意的是,他目前并不在 DeepSeek 任职,DeepSeek 官方截至目前也没有回应任何媒体关于发布时间的问询

但结合以下信号,"下周发布"的可信度相当高:

  1. 梁文锋在内部沟通中确认了 4 月下旬发布——这是路透社、创知集等多家媒体独立报道的
  2. Polymarket 预测市场给出 75% 概率在 4 月底前发布,90% 概率在 5 月中旬前
  3. DeepSeek 网页端已经上线"快速模式"和"专家模式",产品层面的预热动作很明显
  4. DeepSeek 正在乌兰察布规划建设大型数据中心,为后续算力需求做准备
  5. DeepGEMM 在 4 月 16 日推送了重大更新——新增 Mega MoE(融合 MoE 大核)、FP8xFP4 GEMM、FP4 Indexer 等核心组件,而这些正是 V4 传闻架构里的关键原语,开源动作和发布节奏高度吻合

所以虽然 Yifan Zhang 的推文带有"非官方"性质,但综合各方信息来看,这基本就是最后的预热了

三项架构组件解读

Yifan Zhang 在跟帖中提到了 V4 的三项核心架构组件,每一项都对应 LLM 优化里的一条重要方向:

1. 稀疏 MQA(Sparse Multi-Query Attention)

在多查询注意力(MQA)的基础上引入稀疏性。简单说就是:不是每个 token 都去看所有的上下文,只看最相关的部分

这对百万级上下文窗口来说至关重要。传统注意力机制在处理超长上下文时,算力和显存开销会呈二次方增长。稀疏 MQA 把这个复杂度压到了接近线性(O(N) 到 O(N log N)),使得百万 token 的上下文处理在实际工程中变得可行。

据传 V4 还搭配了一个叫 Lightning Indexer 的组件,可以在几百页的长文档中实现 20ms 以内的检索速度,且不损失连贯性

2. 融合 MoE 大核(Fused MoE Mega Kernel)

MoE(Mixture-of-Experts)架构本身 DeepSeek 从 V2 就开始用了,V3 进一步打磨。但 MoE 有个工程痛点:路由判断和专家矩阵乘法是两步操作,中间有大量 kernel 启动和显存搬运的开销

Fused MoE Mega Kernel 把这两步融合进同一个 GPU kernel,直接砍掉了中间的开销。这对推理延迟的优化是非常直接的——从架构层面减少了大量不必要的数据搬运

这也是 DeepSeek 一贯的风格:在工程层面把每一个 cycle 都榨干

3. Hyper-Connections(流形约束超连接)

这是三个里面最有学术含量的一项。传统 Transformer 用的是残差连接(Residual Connection),就是简单地把输入加到输出上。Hyper-Connections 是对残差连接的泛化,用多条可学习的加权通路替代单一的残差加法

但早期版本的 Hyper-Connections 有一个致命问题:信号放大会失控,在超大模型中放大倍数可以达到 3000 倍以上,导致训练直接崩溃

DeepSeek 的解决方案叫 mHC(Manifold-Constrained Hyper-Connections):用 Sinkhorn-Knopp 算法把连接矩阵投影到一个特定的数学流形上,让信号放大严格控制在 2 倍以内

论文:arXiv:2512.24880

这项技术的代价只有约 6.7% 的额外计算开销,但换来的是:万亿参数级别的超深超宽模型可以稳定训练

这是 V4 能做到万亿参数的关键基础设施

DeepSeek V4 已知信息汇总

综合各方报道,V4 目前已知的信息:

特性

详情

参数规模

约 1 万亿(万亿级 MoE),每个 token 激活约 32-37B 参数

上下文窗口

百万级(约 100 万 token)

训练芯片

首次深度适配华为昇腾 950PR 等国产芯片,全栈国产算力

开源协议

Apache 2.0,可商用

API 定价

传闻每百万 token 约 $0.30,是 GPT 旗舰模型的 1/10

产品版本

V4 旗舰版、V4 Lite(轻量版)、V4 Vision(多模态版)

核心架构

Sparse MQA + Fused MoE Mega Kernel + mHC

几个值得关注的点

1. 全栈国产算力,这是最大的信号

V4 如果真的完全跑在华为昇腾芯片上,那意味着 DeepSeek 从 CUDA 迁移到了 CANN 框架,实现全链路国产化

这对整个中国 AI 产业的意义远超一个模型发布本身 —— 它证明了在芯片封锁的条件下,国产算力生态是跑得通的

2. 定价继续卷

每百万 token $0.30,延续了 DeepSeek 一贯的"价格屠夫"风格

V3 时期就已经是业内最便宜的了,V4 在万亿参数的情况下还能维持这个价位,MoE 的稀疏激活功不可没

3. 算力基建正式入场

DeepSeek 之前一直是"轻资产"打法,主要靠算法效率取胜

但 3 月底那次长达 12 小时的宕机暴露了算力瓶颈。这次在乌兰察布规划数据中心、首次启动外部融资(路透社 4 月 17 日报道,估值约 100 亿美元),说明 DeepSeek 已经意识到:光有好算法不够,算力基础设施也得自己掌握

4. 之前"狼来了"过两次

实话实说,V4 之前已经有过两轮"即将发布"的传闻(2 月和 3 月),结果都跳票了

但综合 Yifan Zhang 的爆料、梁文锋的内部确认、产品端的预热动作、以及预测市场的赔率,这次的信号密度确实是最高的

总结

如果 V4 真的在下周发布,它将是:

  • 国产 AI 模型首个万亿参数级开源模型
  • 首个全面适配国产算力的旗舰大模型
  • 百万级上下文窗口 + 极致性价比的组合

DeepSeek 从 V2 开始就一直在给行业制造惊喜,V3 更是直接把开源大模型的天花板拉到了跟闭源模型掰手腕的水平。V4 如果能兑现这些技术承诺,那真的可以说是"2026 年国产 AI 的破局之作"

拭目以待,下周分晓

#DeepSeek #DeepSeekV4 #MoE #国产算力 #大模型

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 消息源可信度分析
  • 三项架构组件解读
    • 1. 稀疏 MQA(Sparse Multi-Query Attention)
    • 2. 融合 MoE 大核(Fused MoE Mega Kernel)
    • 3. Hyper-Connections(流形约束超连接)
  • DeepSeek V4 已知信息汇总
  • 几个值得关注的点
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档