首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >真王断剑重铸!DeepSeek V4 横空出世,百万上下文普惠时代正式启幕两年磨一剑,霜刃未曾试

真王断剑重铸!DeepSeek V4 横空出世,百万上下文普惠时代正式启幕两年磨一剑,霜刃未曾试

原创
作者头像
用户12272248
发布2026-04-28 22:23:22
发布2026-04-28 22:23:22
1530
举报
文章被收录于专栏:最新科技最新科技

两年磨一剑,霜刃未曾试。DeepSeek V4 选择了一条更陡峭的上山路。

引言

2026 年 4 月 24 日,DeepSeek 正式上线并开源 V4 预览版,同步发布 Pro (1.6T 总参数 / 49B 激活参数) 与 Flash (284B 总参数 / 13B 激活参数) 双版本,首次将百万 Token 上下文作为标配功能开放,同时配套完整技术报告。

当天,B 站上一个看似奇怪的事件引起了行业注意——华为昇腾 CANN 官方账号开了一场直播,主题直截了当:DeepSeek V4 昇腾首发。一个大模型公司发新模型,为什么芯片生态的官方账号要出来站台?答案藏在一个产业信号里:V4 已经完整迁移到华为昇腾芯片生态,成为第一个完全在国产芯片上运行的前沿大模型。

此消彼长之下,国产算力产业链集体躁动。相关 ETF 和芯片股应声拉起,资本市场用真金白银投下了自己的一票。

如果你只把 V4 当成一次“参数变大、跑分变高”的常规迭代,那就错过了正在上演的真正故事。DeepSeek V4 不是终点,而是中国大模型开源生态走向成熟的分水岭。本文沿着时间与技术两条线索,回溯 DeepSeek 全系列从 V1 到 V4 的进化路径,拆解 V4 架构创新的底层逻辑,并解读这场发布对开发者生态与产业格局的真正意义。

第一章 序章:凭什么 DeepSeek 能用 500 万撬动一个时代?

1.1 量化基因与算力底座

在翻开 DeepSeek 的技术族谱之前,有必要先聊聊它的出身。DeepSeek 做 AI 的起点,其实有点“不务正业”——创始团队来自幻方量化,中国最大的量化对冲基金之一。在投身 AI 模型开发之前,团队已在金融市场里经历了多年对计算效率、延迟和成本的极端苛求。量化交易领域里,毫秒级的延迟就是利润的分水岭,“用最少的算力干最多的活” 是刻在基因里的本能。

这份基因延续到了大模型研发中。DeepSeek 为何能在训练成本上实现质的突破?答案要追溯到幻方时代自建的 “萤火”超级计算机——一台由万张级 GPU 组成、专门为 AI 训练优化的算力集群。当其他大模型公司还在租用云计算资源时,DeepSeek 已经拥有了完全自主可控的算力底座,这让团队可以对底层硬件进行极致优化,把每一分电费都花在刀刃上。

1.2 技术理念:架构创新优先于规模扩张

DeepSeek 从第一代模型起就确立了一条与众不同的技术路线:

“不盲目堆参数,用架构创新换效率;不闭门造车,用开源策略换生态。”

这条路线在 484 天前 V3 发布时达到了第一个高潮——那篇后来被全球媒体反复引用的技术报告里,写着一个让硅谷“破防”的数字:完整训练仅 278.8 万 H800 GPU 小时,成本约 557 万美元,不到 GPT-4 训练成本的 1/18。一个月后,DeepSeek R1 登陆美国 App Store 免费榜登顶,英伟达单日市值蒸发近 6000 亿美元,刷新美国公司单日市值损失纪录。

那个瞬间,DeepSeek 向世界证明了一件事:前沿 AI 未必只能用天文数字的资本堆出来。一个中国团队,用极端工程优化、MoE 稀疏架构和开源策略,在算力霸权的叙事上撕开了一道裂缝。

第二章 DeepSeek V1:开源基座的敲门砖

2024 年 1 月发布,2024 年 1 月发布,DeepSeek V1 诞生于一个朴素的问题:“高质量数据 + 缩放定律,能不能做出一流的基座模型?”

核心配置

  • 基于缩放定律系统性地构建了 2 万亿 Token 高质量数据集,涵盖中英双语及代码语料
  • 推出 7B 和 67B 两款基座模型
  • 坚守传统 Transformer 架构,不搞花活,先把地基打牢

关键突破

  • 67B 版本在代码生成与数学推理任务上超越 Llama 2 70B,证明了 “数据质量优于参数量级” 的路线可行
  • 聊天版经过 SFT + DPO 微调后,开放式对话评估中超越 GPT-3.5
  • 初次向国际社区展示中国模型有能力挑战开源标杆

V1 的意义在于 “验证可行性” 。它证明了三件事:第一,不堆参数也能打;第二,高质量数据比盲目扩大语料更重要;第三,中国团队有能力和国际顶尖开源模型正面竞争。但这仅仅是一个开始——V1 仍采用稠密架构,推理成本与参数量成正比增长,规模化瓶颈隐隐若现。

第三章 DeepSeek V2:效率革命,MoE 首次登场

2024 年 5 月发布,这是 DeepSeek 技术路线最关键的一次转折

V2 首次将 MoE 混合专家模型大规模落地开源,把 “大容量 + 低激活” 的效率哲学付诸实践,被社区戏称为“AI 界的拼多多”——同样的性能,便宜得多。

核心配置

  • 总参数 236B,每次推理仅激活 21B 参数
  • 引入 细粒度 MoE 架构,拆分专家模块并加入共享专家,解决传统 MoE 的负载不均问题
  • 中文训练数据占比大幅提升,母语理解更加地道

划时代技术:MLA 多头潜在注意力

V2 最核心的创新是 MLA (Multi-head Latent Attention)。传统 Transformer 在处理长文本时,KV 缓存随序列长度线性增长,很快吃掉全部显存。MLA 通过低秩联合压缩,将 KV 缓存从原始高维空间映射到一个低维潜变量空间,压缩率高达 93.3%,而性能几乎无损。打个比方:原来你要在仓库里给每本书做一张完整的信息卡,现在只需给每本书一个条形码——想找的时候扫描条形码,系统自动还原全部信息。省下的不仅是空间,更是时间。

性能收益

  • 训练成本降低 42.5%
  • 推理吞吐量提升 5.76 倍
  • 实现了 “千亿参数性能、百亿参数成本” 的效率奇迹

V2 的技术报告中有一句话可以概括它的核心逻辑:“我们不要一个每个 Token 都唤醒所有大脑的巨人,我们需要一个知道该唤醒哪些专家的智者。” 这句话,几乎就是 DeepSeek 此后所有架构设计的哲学原点。

第四章 DeepSeek V3:千亿参数 + FP8 训练的破壁者

2024 年 12 月 26 日,V3 正式迈入千亿参数俱乐部,攻克了业界公认的低精度训练世界级难题,并用不到 560 万美元的预算完成了 671B 参数的完整训练。

核心配置

  • 总参数 671B,激活参数 37B
  • 预训练数据量 14.8 万亿 Token
  • 沿用并深化 MoE + MLA 架构

核心技术突破:FP8 混合精度训练

大模型训练历来依赖 BF16/FP16 精度,FP8 精度虽然理论上能省下一半显存和带宽,但数值稳定性极差,业界此前鲜有成功案例。V3 创新性地提出分层量化策略:对权重、激活值、梯度分别采用不同精度处理,并用动态缩放机制自动调整异常值,避免梯度溢出或消失。这一突破将算力利用率推至 81%,为 V4 的 FP4 训练奠定了基础。

工程创新

  • 无辅助损失负载均衡:用偏置项动态调整 MoE 专家负载,无需额外损失函数,避免干扰主任务学习
  • 双向流水线并行 (DuALPipe):跨节点通信效率最大化,将 GPU 闲置等待时间压缩到极致

性能表现

  • MMLU 达 88.5,超越当时所有开源模型,逼近 GPT-4 水平
  • V3 的训练成本一度被外媒反复引用,成为 “低成本高性能” 的代名词

但 V3 的意义不仅仅是跑分。它的存在让整个 AI 行业开始反思一个根本问题:如果前沿模型的训练成本可以低到一个量级,那算力霸权的叙事还能持续多久? 这个问题,在 V3 发布一个月后,被 R1 以一种更为炸裂的方式延续了下去。

第五章 DeepSeek R1:当 AI 学会“思考”

2025 年 1 月,DeepSeek 发布了 R1,这是一次 方法论层面的范式跃迁

在 R1 之前,主流模型做推理,靠的是大量人工标注的“思维链”数据——说白了,是人类手把手教模型怎么一步步思考。R1 做了一个大胆得近乎疯狂的决定:不要人类教,让强化学习自己去“悟”

核心创新:纯强化学习驱动的推理能力觉醒

R1 的子版本 R1-Zero 在完全没有 SFT 微调的情况下,仅以答案正确性作为奖励信号,通过强化学习自我训练。结果令人震惊——模型自发产生了类人类的推理行为:自我验证、回溯纠错、甚至“灵光一闪”找到更优解。AIME 2024 数学竞赛通过率从 15.6% 飙升至 77.9%,几乎翻了五倍。

更令人兴奋的是,R1 的推理能力可以蒸馏至 1.5B/7B 等小模型,这意味着深度推理不再是云端巨无霸的专利,普通终端设备也可能用上会“思考”的模型。R1 论文在 arXiv 上的版本从最初的 22 页膨胀到了 86 页,可见其方法论的深度和复杂度。

R1 的价值,远不止于数学和代码分数的提升。它证明了 “推理能力不是靠灌输的,而是靠激励出来的” 。这条路线直接奠定了 V3.2 和 V4 的“思考灵魂”——后续的 Agent 任务、复杂工具调用,都离不开这层推理底层能力。

第六章 DeepSeek V3.2:长上下文与 Agent 能力的初成型

2025 年中发布的 V3.2,是 V3 架构向 V4 时代过度的关键桥梁。

核心技术

  • DSA 深度稀疏注意力:支持 128K 上下文,计算复杂度大幅降低,为百万上下文的 V4 打下算法基础
  • 强化学习从纯推理扩展到 Agent 任务:模型开始学会使用搜索引擎、执行代码、调用工具

里程碑成就

  • 在国际数学奥林匹克、信息学奥赛中斩获金牌,开源模型首次登顶世界级智力竞赛
  • 轻量版 2.5 支持联网搜索、文件上传等多模态交互功能

V3.2 可以看作 V4 的“技术预演”——DSA 稀疏注意力验证了长上下文压缩路线的可行性,Agent 任务的强化学习训练验证了模型不仅能“解题”,还能“做事”。真正的质变,还差最后一步

第七章 DeepSeek V4:百万上下文普惠时代的开篇

7.1 核心定位:“百万上下文 + Agent 王者”双线作战

V4 的发布首次将百万 Token 上下文作为标配功能提供给所有用户,让企业级应用能以可接受的成本使用长文本处理能力。模型按大小分为两个版本:

维度

DeepSeek V4 Pro (旗舰版)

DeepSeek V4 Flash (轻量版)

总参数

1.6T

284B

激活参数

49B

13B

上下文长度

1M Token (约 75 万字)

1M Token (标配)

预训练数据

33T Token

32T Token

核心优势

比肩 GPT-4/Claude 的复杂推理与 Agent

高吞吐、低成本经济之选

API 定价 (输入)

$1.74 / 百万 Tokens

$0.14 / 百万 Tokens

这种 “旗舰 + 轻量” 的双线设计,表明 DeepSeek 的目标不再是单点跑分的突破,而是构建一套可分层、可接入的产品线——企业可以根据任务复杂度将请求分流:复杂推理走 Pro,高频日常调用走 Flash。

7.2 架构重构:混合注意力机制如何破解百万上下文难题

长上下文的根本困境在于 vanilla attention 是 O(n²) 复杂度:上下文每翻一倍,计算量和显存开销要翻四倍。V3 时代的 MLA 技术虽然压缩了 KV 特征维度,但当 Token 数量飙升到百万级别,token 数量本身仍然是一个沉重的负担。

V4 带来了全新的解决方案——混合注意力 (Hybrid Attention),由 CSA 压缩稀疏注意力HCA 重度压缩注意力 组成。

CSA (Compressed Sparse Attention):模型先将连续 Token 的 KV 表示压缩为更少的条目 (如 4 个 Token 压缩为 1 个),再由 query 从压缩块中选择最相关的部分参与计算。本质上是“先压缩再稀疏选择”,完成了初步的 Token 数量压缩。 HCA (Heavily Compressed Attention):采用更激进的压缩策略,把更长范围的上下文压成更短的表示,在压缩后的序列上做 attention。它解决的是“百万 Token 里,如何保留全局结构的整体感”。 Lightning Indexer:CSA 内部的一个轻量索引器,用低秩多查询的小 attention 快速筛选最相关的 KV 块,避免全量扫描。

三层信息处理逻辑: 近处上下文保留精细细节 → 远程信息通过 CSA 按需精准读取 → 超远的全局背景通过 HCA 高度压缩记忆

关键效率指标 (百万 Token 场景):

版本

单 Token 推理 FLOPs (vs V3.2)

KV 缓存 (vs V3.2)

V4 Pro

27%

10%

V4 Flash

10%

7%

英伟达官方技术博客也给出了高度评价:V4 架构实现了相比 V3.2 降低 73% 的每 Token 推理 FLOPs 和 90% 的 KV 缓存负担。百万上下文从不可及的理想变成了可日常使用的工作负载。

7.3 训练优化:预训练三重奏 + 后训练新范式

V4 在训练阶段实现了三大更新:

  • mHC 流形约束残差连接:在深层 Transformer 堆叠中保持数值稳定性,防止深层梯度崩溃
  • Muon 优化器:替代传统 AdamW (embedding/head 除外),实现更快收敛和更强训练稳定性
  • FP4 量化感知训练 (QAT):将 MoE 权重进一步压缩,模型原生理解低精度运算,为向下兼容 INT8/INT4 格式奠定基础

后训练阶段,V4 采用了 OPD (On-Policy Distillation,同策略知识蒸馏) 实现多个领域专家模型的融合。这意味着 V4 不是一个领域的“偏科生”——数学推理、代码生成、Agent 工具调用等多个能力被统一到一个模型中,能力边界更加均衡。

7.4 国产算力闭环:从“能用”到“原生适配”

V4 延期发布的真实原因——DeepSeek 将整套系统从英伟达 CUDA 生态完整迁移到了华为昇腾芯片平台

迁移难度超乎想象。R1 时代深度定制的 PTX 层优化在昇腾上全部作废,整套底层代码、调度逻辑、工程体系需要重写一遍。更难的是,万亿参数级别的 MoE 模型对内存带宽、芯片间互联、KV Cache 管理的要求极高,而昇腾芯片在互联带宽方面与英伟达 NVLink 存在差距,更多依赖光模块进行跨节点扩展,引入了额外的延迟和同步开销。

V4 团队给出的解决方案是:用 TileLang 语言 做算子开发——这是北京大学开源的一款编程语言,实现了与 CUDA 比特级一致的数值精度,同时全面适配国产芯片平台。华为昇腾 950 通过融合 kernel 和多流并行技术降低 Attention 的计算和访存开销,结合多种量化算法,实现了高吞吐、低时延的 V4 推理部署。

从此,国产大模型 “训练在海外、推理在国内” 的尴尬局面被打破,第一张完全自主可控的产业拼图正式合拢

第八章 性能全景:开源模型登顶全球第一梯队

8.1 代码能力

  • LiveCodeBench:V4 Pro 取得 93.5 分,超越 Gemini 3.1 Pro、Claude Opus 4.6,领跑所有已评测模型
  • Codeforces:评分 3206 分,职业选手水平,超越 96.3% 的人类参赛者
  • SWE-bench Verified:80.6 分,真实 GitHub Issue 修复能力达到顶级水平

8.2 数学推理

  • AIME 2024:通过率 79.8%
  • IMO 奥数基准 (IMQAnswerBench)89.8 分,斩获金牌级别成绩
  • HMMT 2026 Feb95.2 分,逼近满分水平
  • MRC 单张 A100 国际数学竞赛:取得 71.6 分,超越 Claude Opus 4.6,晋级专业数学选手水平

8.3 Agent 能力

  • Agentic Coding 评测中,V4 Pro 已达到开源模型最佳水平
  • 内部员工已全面使用 V4 替代 Claude,评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距
  • 模型针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了专项优化,在代码任务和文档生成方面均有显著提升

8.4 世界知识与长上下文

  • 世界知识测评 大幅领先其他开源模型,仅稍逊于顶层闭源模型 Gemini Pro 3.1
  • MMLU-Pro (EM) :87.5 分
  • MRCR 1M83.5 分,百万级长文本多轮推理能力领先
  • HLE (Pass@1)37.7 分,高阶语言理解能力表现强劲

8.5 API 成本与可接入性

  • 兼容 OpenAI / Anthropic 标准接口,迁移成本接近零
  • 支持 Non-think / Think High / Think Max 三档思考模式,系统可以按任务复杂度分流
  • 全面适配华为昇腾 950 系列,实现国产算力自主可控

第九章 行业意义与落地价值

9.1 打破闭源垄断,普惠百万上下文

V4 的最大意义不在于某个单项跑分,“百万上下文从此不再是一篇 paper 里的跑分数字,而是普通开发者打开浏览器就能用到的功能”。从“可用”到“好用”,从“演示 Demo” 到“可落地工作负载”,这一步的跨越价值,远超任何参数规模的增长。

9.2 国产算力闭环的历史性一步

华泰证券研报指出,V4 的核心边际变化在于长上下文成本下降后,复杂 Agent、多文档分析、长周期任务、在线学习等场景的可用性将大幅提升,推理调用量与存储访问频次有望迎来新一轮扩张。DeepSeek V4 的发布被市场普遍视为 “国产 AI 自主可控路径的一次关键验证” ,产业链上下游——从芯片设计到算力租赁到云计算服务——都在被重新激活。

9.3 为企业与开发者铺平最后一公里

  • 极致性价比:输入成本低至 $0.14 / 百万 Tokens (Flash),使中长尾企业首次体验到前沿模型的能力
  • 无缝迁移:全接口兼容 OpenAI/Anthropic 标准,迁移零成本
  • 灵活调度:三档推理模式,企业可按任务复杂度与成本预算分层部署,避免“牛刀杀鸡”或“小马拉大车”

第十章 展望:Agent 时代,DeepSeek 的下一步

V4 与其说是终点,不如说是新起点。开源模型在核心指标上首次系统性地追平了闭源第一梯队,但 DeepSeek 要做的事情远未完成。

站在 V4 的肩膀上往前看,几个方向值得持续关注:

  • 多模态能力:V4 目前聚焦纯文本,多模态融合是下一步扩容的必然方向
  • 端侧部署与更小的蒸馏版本:R1 证明了推理能力可蒸馏至 1.5B 小模型,V4 体系下的端侧部署将让 AI 走进更丰富的硬件生态
  • 强化学习推理的持续深化:R1 的“纯 RL 觉醒”路线为深度推理提供了坚实基础,V4 的 Agent 场景是这条路线的自然延伸
  • 国产算力生态的全面铺开:下半年昇腾批量上量后,V4 的综合成本有望进一步下降,形成“模型-算力-应用”的正向飞轮

引用 DeepSeek 在发布稿结尾的一句话——出自荀子《非十二子》——作为 本文的收尾或许最为恰当:

“不诱于誉,不恐于诽,率道而行,端然正己。”

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 两年磨一剑,霜刃未曾试。DeepSeek V4 选择了一条更陡峭的上山路。
  • 引言
  • 第一章 序章:凭什么 DeepSeek 能用 500 万撬动一个时代?
    • 1.1 量化基因与算力底座
    • 1.2 技术理念:架构创新优先于规模扩张
  • 第二章 DeepSeek V1:开源基座的敲门砖
  • 第三章 DeepSeek V2:效率革命,MoE 首次登场
  • 第四章 DeepSeek V3:千亿参数 + FP8 训练的破壁者
  • 第五章 DeepSeek R1:当 AI 学会“思考”
  • 第六章 DeepSeek V3.2:长上下文与 Agent 能力的初成型
  • 第七章 DeepSeek V4:百万上下文普惠时代的开篇
    • 7.1 核心定位:“百万上下文 + Agent 王者”双线作战
    • 7.2 架构重构:混合注意力机制如何破解百万上下文难题
    • 7.3 训练优化:预训练三重奏 + 后训练新范式
    • 7.4 国产算力闭环:从“能用”到“原生适配”
  • 第八章 性能全景:开源模型登顶全球第一梯队
    • 8.1 代码能力
    • 8.2 数学推理
    • 8.3 Agent 能力
    • 8.4 世界知识与长上下文
    • 8.5 API 成本与可接入性
  • 第九章 行业意义与落地价值
    • 9.1 打破闭源垄断,普惠百万上下文
    • 9.2 国产算力闭环的历史性一步
    • 9.3 为企业与开发者铺平最后一公里
  • 第十章 展望:Agent 时代,DeepSeek 的下一步
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档