2026 年 4 月 24 日,DeepSeek 正式上线并开源 V4 预览版,同步发布 Pro (1.6T 总参数 / 49B 激活参数) 与 Flash (284B 总参数 / 13B 激活参数) 双版本,首次将百万 Token 上下文作为标配功能开放,同时配套完整技术报告。
当天,B 站上一个看似奇怪的事件引起了行业注意——华为昇腾 CANN 官方账号开了一场直播,主题直截了当:DeepSeek V4 昇腾首发。一个大模型公司发新模型,为什么芯片生态的官方账号要出来站台?答案藏在一个产业信号里:V4 已经完整迁移到华为昇腾芯片生态,成为第一个完全在国产芯片上运行的前沿大模型。
此消彼长之下,国产算力产业链集体躁动。相关 ETF 和芯片股应声拉起,资本市场用真金白银投下了自己的一票。
如果你只把 V4 当成一次“参数变大、跑分变高”的常规迭代,那就错过了正在上演的真正故事。DeepSeek V4 不是终点,而是中国大模型开源生态走向成熟的分水岭。本文沿着时间与技术两条线索,回溯 DeepSeek 全系列从 V1 到 V4 的进化路径,拆解 V4 架构创新的底层逻辑,并解读这场发布对开发者生态与产业格局的真正意义。
在翻开 DeepSeek 的技术族谱之前,有必要先聊聊它的出身。DeepSeek 做 AI 的起点,其实有点“不务正业”——创始团队来自幻方量化,中国最大的量化对冲基金之一。在投身 AI 模型开发之前,团队已在金融市场里经历了多年对计算效率、延迟和成本的极端苛求。量化交易领域里,毫秒级的延迟就是利润的分水岭,“用最少的算力干最多的活” 是刻在基因里的本能。
这份基因延续到了大模型研发中。DeepSeek 为何能在训练成本上实现质的突破?答案要追溯到幻方时代自建的 “萤火”超级计算机——一台由万张级 GPU 组成、专门为 AI 训练优化的算力集群。当其他大模型公司还在租用云计算资源时,DeepSeek 已经拥有了完全自主可控的算力底座,这让团队可以对底层硬件进行极致优化,把每一分电费都花在刀刃上。
DeepSeek 从第一代模型起就确立了一条与众不同的技术路线:
“不盲目堆参数,用架构创新换效率;不闭门造车,用开源策略换生态。”
这条路线在 484 天前 V3 发布时达到了第一个高潮——那篇后来被全球媒体反复引用的技术报告里,写着一个让硅谷“破防”的数字:完整训练仅 278.8 万 H800 GPU 小时,成本约 557 万美元,不到 GPT-4 训练成本的 1/18。一个月后,DeepSeek R1 登陆美国 App Store 免费榜登顶,英伟达单日市值蒸发近 6000 亿美元,刷新美国公司单日市值损失纪录。
那个瞬间,DeepSeek 向世界证明了一件事:前沿 AI 未必只能用天文数字的资本堆出来。一个中国团队,用极端工程优化、MoE 稀疏架构和开源策略,在算力霸权的叙事上撕开了一道裂缝。
2024 年 1 月发布,2024 年 1 月发布,DeepSeek V1 诞生于一个朴素的问题:“高质量数据 + 缩放定律,能不能做出一流的基座模型?”
核心配置:
关键突破:
V1 的意义在于 “验证可行性” 。它证明了三件事:第一,不堆参数也能打;第二,高质量数据比盲目扩大语料更重要;第三,中国团队有能力和国际顶尖开源模型正面竞争。但这仅仅是一个开始——V1 仍采用稠密架构,推理成本与参数量成正比增长,规模化瓶颈隐隐若现。
2024 年 5 月发布,这是 DeepSeek 技术路线最关键的一次转折。
V2 首次将 MoE 混合专家模型大规模落地开源,把 “大容量 + 低激活” 的效率哲学付诸实践,被社区戏称为“AI 界的拼多多”——同样的性能,便宜得多。
核心配置:
划时代技术:MLA 多头潜在注意力
V2 最核心的创新是 MLA (Multi-head Latent Attention)。传统 Transformer 在处理长文本时,KV 缓存随序列长度线性增长,很快吃掉全部显存。MLA 通过低秩联合压缩,将 KV 缓存从原始高维空间映射到一个低维潜变量空间,压缩率高达 93.3%,而性能几乎无损。打个比方:原来你要在仓库里给每本书做一张完整的信息卡,现在只需给每本书一个条形码——想找的时候扫描条形码,系统自动还原全部信息。省下的不仅是空间,更是时间。
性能收益:
V2 的技术报告中有一句话可以概括它的核心逻辑:“我们不要一个每个 Token 都唤醒所有大脑的巨人,我们需要一个知道该唤醒哪些专家的智者。” 这句话,几乎就是 DeepSeek 此后所有架构设计的哲学原点。
2024 年 12 月 26 日,V3 正式迈入千亿参数俱乐部,攻克了业界公认的低精度训练世界级难题,并用不到 560 万美元的预算完成了 671B 参数的完整训练。
核心配置:
核心技术突破:FP8 混合精度训练
大模型训练历来依赖 BF16/FP16 精度,FP8 精度虽然理论上能省下一半显存和带宽,但数值稳定性极差,业界此前鲜有成功案例。V3 创新性地提出分层量化策略:对权重、激活值、梯度分别采用不同精度处理,并用动态缩放机制自动调整异常值,避免梯度溢出或消失。这一突破将算力利用率推至 81%,为 V4 的 FP4 训练奠定了基础。
工程创新:
性能表现:
但 V3 的意义不仅仅是跑分。它的存在让整个 AI 行业开始反思一个根本问题:如果前沿模型的训练成本可以低到一个量级,那算力霸权的叙事还能持续多久? 这个问题,在 V3 发布一个月后,被 R1 以一种更为炸裂的方式延续了下去。
2025 年 1 月,DeepSeek 发布了 R1,这是一次 方法论层面的范式跃迁。
在 R1 之前,主流模型做推理,靠的是大量人工标注的“思维链”数据——说白了,是人类手把手教模型怎么一步步思考。R1 做了一个大胆得近乎疯狂的决定:不要人类教,让强化学习自己去“悟”。
核心创新:纯强化学习驱动的推理能力觉醒
R1 的子版本 R1-Zero 在完全没有 SFT 微调的情况下,仅以答案正确性作为奖励信号,通过强化学习自我训练。结果令人震惊——模型自发产生了类人类的推理行为:自我验证、回溯纠错、甚至“灵光一闪”找到更优解。AIME 2024 数学竞赛通过率从 15.6% 飙升至 77.9%,几乎翻了五倍。
更令人兴奋的是,R1 的推理能力可以蒸馏至 1.5B/7B 等小模型,这意味着深度推理不再是云端巨无霸的专利,普通终端设备也可能用上会“思考”的模型。R1 论文在 arXiv 上的版本从最初的 22 页膨胀到了 86 页,可见其方法论的深度和复杂度。
R1 的价值,远不止于数学和代码分数的提升。它证明了 “推理能力不是靠灌输的,而是靠激励出来的” 。这条路线直接奠定了 V3.2 和 V4 的“思考灵魂”——后续的 Agent 任务、复杂工具调用,都离不开这层推理底层能力。
2025 年中发布的 V3.2,是 V3 架构向 V4 时代过度的关键桥梁。
核心技术:
里程碑成就:
V3.2 可以看作 V4 的“技术预演”——DSA 稀疏注意力验证了长上下文压缩路线的可行性,Agent 任务的强化学习训练验证了模型不仅能“解题”,还能“做事”。真正的质变,还差最后一步。
V4 的发布首次将百万 Token 上下文作为标配功能提供给所有用户,让企业级应用能以可接受的成本使用长文本处理能力。模型按大小分为两个版本:
维度 | DeepSeek V4 Pro (旗舰版) | DeepSeek V4 Flash (轻量版) |
|---|---|---|
总参数 | 1.6T | 284B |
激活参数 | 49B | 13B |
上下文长度 | 1M Token (约 75 万字) | 1M Token (标配) |
预训练数据 | 33T Token | 32T Token |
核心优势 | 比肩 GPT-4/Claude 的复杂推理与 Agent | 高吞吐、低成本经济之选 |
API 定价 (输入) | $1.74 / 百万 Tokens | $0.14 / 百万 Tokens |
这种 “旗舰 + 轻量” 的双线设计,表明 DeepSeek 的目标不再是单点跑分的突破,而是构建一套可分层、可接入的产品线——企业可以根据任务复杂度将请求分流:复杂推理走 Pro,高频日常调用走 Flash。
长上下文的根本困境在于 vanilla attention 是 O(n²) 复杂度:上下文每翻一倍,计算量和显存开销要翻四倍。V3 时代的 MLA 技术虽然压缩了 KV 特征维度,但当 Token 数量飙升到百万级别,token 数量本身仍然是一个沉重的负担。
V4 带来了全新的解决方案——混合注意力 (Hybrid Attention),由 CSA 压缩稀疏注意力 与 HCA 重度压缩注意力 组成。
CSA (Compressed Sparse Attention):模型先将连续 Token 的 KV 表示压缩为更少的条目 (如 4 个 Token 压缩为 1 个),再由 query 从压缩块中选择最相关的部分参与计算。本质上是“先压缩再稀疏选择”,完成了初步的 Token 数量压缩。 HCA (Heavily Compressed Attention):采用更激进的压缩策略,把更长范围的上下文压成更短的表示,在压缩后的序列上做 attention。它解决的是“百万 Token 里,如何保留全局结构的整体感”。 Lightning Indexer:CSA 内部的一个轻量索引器,用低秩多查询的小 attention 快速筛选最相关的 KV 块,避免全量扫描。
三层信息处理逻辑: 近处上下文保留精细细节 → 远程信息通过 CSA 按需精准读取 → 超远的全局背景通过 HCA 高度压缩记忆
关键效率指标 (百万 Token 场景):
版本 | 单 Token 推理 FLOPs (vs V3.2) | KV 缓存 (vs V3.2) |
|---|---|---|
V4 Pro | 27% | 10% |
V4 Flash | 10% | 7% |
英伟达官方技术博客也给出了高度评价:V4 架构实现了相比 V3.2 降低 73% 的每 Token 推理 FLOPs 和 90% 的 KV 缓存负担。百万上下文从不可及的理想变成了可日常使用的工作负载。
V4 在训练阶段实现了三大更新:
后训练阶段,V4 采用了 OPD (On-Policy Distillation,同策略知识蒸馏) 实现多个领域专家模型的融合。这意味着 V4 不是一个领域的“偏科生”——数学推理、代码生成、Agent 工具调用等多个能力被统一到一个模型中,能力边界更加均衡。
V4 延期发布的真实原因——DeepSeek 将整套系统从英伟达 CUDA 生态完整迁移到了华为昇腾芯片平台。
迁移难度超乎想象。R1 时代深度定制的 PTX 层优化在昇腾上全部作废,整套底层代码、调度逻辑、工程体系需要重写一遍。更难的是,万亿参数级别的 MoE 模型对内存带宽、芯片间互联、KV Cache 管理的要求极高,而昇腾芯片在互联带宽方面与英伟达 NVLink 存在差距,更多依赖光模块进行跨节点扩展,引入了额外的延迟和同步开销。
V4 团队给出的解决方案是:用 TileLang 语言 做算子开发——这是北京大学开源的一款编程语言,实现了与 CUDA 比特级一致的数值精度,同时全面适配国产芯片平台。华为昇腾 950 通过融合 kernel 和多流并行技术降低 Attention 的计算和访存开销,结合多种量化算法,实现了高吞吐、低时延的 V4 推理部署。
从此,国产大模型 “训练在海外、推理在国内” 的尴尬局面被打破,第一张完全自主可控的产业拼图正式合拢。
V4 的最大意义不在于某个单项跑分,“百万上下文从此不再是一篇 paper 里的跑分数字,而是普通开发者打开浏览器就能用到的功能”。从“可用”到“好用”,从“演示 Demo” 到“可落地工作负载”,这一步的跨越价值,远超任何参数规模的增长。
华泰证券研报指出,V4 的核心边际变化在于长上下文成本下降后,复杂 Agent、多文档分析、长周期任务、在线学习等场景的可用性将大幅提升,推理调用量与存储访问频次有望迎来新一轮扩张。DeepSeek V4 的发布被市场普遍视为 “国产 AI 自主可控路径的一次关键验证” ,产业链上下游——从芯片设计到算力租赁到云计算服务——都在被重新激活。
V4 与其说是终点,不如说是新起点。开源模型在核心指标上首次系统性地追平了闭源第一梯队,但 DeepSeek 要做的事情远未完成。
站在 V4 的肩膀上往前看,几个方向值得持续关注:
引用 DeepSeek 在发布稿结尾的一句话——出自荀子《非十二子》——作为 本文的收尾或许最为恰当:
“不诱于誉,不恐于诽,率道而行,端然正己。”

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。