![在这里插入图片描述](https://developer.qcloudimg.com/http-save/yehe-10809644/b1094a17f4020782894e0d6895c4afdb.png)
## 一、项目概览

DeepSeek-V4 是 DeepSeek 团队推出的新一代开源混合专家(MoE)大语言模型系列。该系列包含两款模型:

- **DeepSeek-V4-Pro**:总参数量 1.6T,激活参数 49B
- **DeepSeek-V4-Flash**:总参数量 284B,激活参数 13B

两款模型都原生支持 **100 万 token 的上下文长度**,采用 MIT 协议开源,这意味着商业使用没有任何束缚。本文聚焦于旗舰款 DeepSeek-V4-Pro,从架构、训练、性能三个维度展开分析。

值得一提的是,V4-Pro 的权重以 **FP4 + FP8 混合精度**发布——MoE 专家参数使用 FP4,其余大部分参数使用 FP8。这种混合精度方案让一个 1.6T 参数的模型在 Hugging Face 上的实际存储仅约 862B 参数大小,显著降低了部署门槛。

## 二、三大架构升级

DeepSeek-V4 在架构层面相比 V3.2 做了三项核心改动,目的明确:把"长上下文"做得既能用、又便宜。

### 1. 混合注意力架构 (Hybrid Attention)

V4 采用了 **Compressed Sparse Attention (CSA)** 与 **Heavily Compressed Attention (HCA)** 相结合的混合注意力机制。这套机制带来的直接收益非常可观:在 1M token 的上下文场景下,DeepSeek-V4-Pro 相较 V3.2,**单 token 推理 FLOPs 仅需 27%,KV Cache 仅需 10%**。

KV Cache 是长上下文推理的最大成本来源——它随着上下文长度线性增长,直接吃掉显存。把它压到原来的十分之一,这是从"能跑 1M 上下文"到"能在合理硬件上跑 1M 上下文"的关键差别。

### 2. Manifold-Constrained Hyper-Connections (mHC)

为了让超深网络在百万级上下文中依然保持稳定的信号传播,V4 引入了流形约束超连接(mHC)。它在传统残差连接的基础上做了增强,同时不损害模型的表达能力。这是大模型"训得起来 + 训得稳"的工程性贡献,虽然不是聚光灯下的特性,但对实际收敛质量影响很大。

### 3. Muon 优化器

V4 采用 Muon 优化器替代了此前训练中常用的 AdamW 类方案,目标是更快的收敛速度和更稳定的训练过程。Muon 在去年开始被多个团队验证有效,DeepSeek 把它用在 32T token 规模的预训练上,本身就是一次大规模工业验证。

## 三、训练流程:专家先培养,再统一蒸馏

V4 系列在 32T+ 高质量、多样化 token 上进行预训练,后训练阶段采用了一套有别于以往的"两段式范式":

1. **领域专家独立培养**:对每个目标领域(代码、数学、推理、Agentic 任务等)分别进行 SFT 和基于 GRPO 的 RL,得到一组各自精通的领域专家模型。
2. **统一模型整合**:通过 **on-policy distillation**(在线策略蒸馏),把不同领域专家的能力合并到一个统一的模型中。

这种"先分而治之、再合而为一"的范式,本质是在解决 RL 阶段任务相互干扰的问题——不同任务的最优策略往往会互相拉扯,直接混合训练容易出现某些维度的退化。先各自练好再蒸馏,是一种更可控的工程路线。

此外,V4 的 Instruct 模型支持三种推理强度:**Non-think、Think High、Think Max**。Think Max 模式需要配合特定 system prompt,并建议把上下文窗口设到至少 384K——这是为长链路深度推理预留空间。

## 四、性能表现

下面这张图来自官方仓库,展示了 DeepSeek-V4-Pro-Max 与主流前沿模型的综合表现对比:

![在这里插入图片描述](https://developer.qcloudimg.com/http-save/yehe-10809644/117e6dc7b813f3052cb0a3bca4b0911a.png)


从官方公布的 benchmark 数据来看,DeepSeek-V4-Pro-Max 在几个关键维度上确实站住了:

**编程能力:全面领先**

- LiveCodeBench Pass@1:**93.5**(对比 GPT-5.4 xHigh 未公布、Gemini-3.1-Pro 91.7)
- Codeforces Rating:**3206**(对比 GPT-5.4 的 3168、Gemini-3.1-Pro 的 3052)
- Apex Shortlist:**90.2**(全场最高)

在代码竞技场维度,V4-Pro-Max 几乎是把闭源前沿模型摁住打,这是开源模型第一次在 Codeforces 这种纯算法 benchmark 上超过 GPT 系列旗舰。

**知识与推理:第一梯队但非最强**

- MMLU-Pro:87.5(Gemini-3.1-Pro 91.0 领先)
- GPQA Diamond:90.1(Gemini-3.1-Pro 94.3 领先)
- HLE:37.7(Gemini-3.1-Pro 44.4 领先)

在最硬核的人类专家级推理 benchmark 上,V4-Pro-Max 与最强闭源模型仍有差距,但已是开源阵营的最高水位。

**Agentic 任务:接近闭源旗舰**

- SWE Verified Resolved:80.6(对比 Opus-4.6 Max 的 80.8)
- SWE Multilingual:76.2
- Terminal Bench 2.0:67.9
- BrowseComp:83.4

特别是 SWE Verified 这种真实代码仓库修 bug 的任务,80.6 的分数已经基本贴住了 Opus-4.6 Max,这是一个非常具有实用意义的指标。

**长上下文:优于多数,但未称王**

- MRCR 1M:83.5(对比 Opus-4.6 Max 的 92.9)
- CorpusQA 1M:62.0(对比 Opus-4.6 Max 的 71.7)

这里 Opus-4.6 Max 仍然显著领先。坦率讲,1M 上下文里能稳定召回信息,Anthropic 这一代做得依然最扎实。但 V4-Pro 的成绩在"用 27% FLOPs"的代价下取得,性价比意义不可忽略。

## 五、推理模式之间的差距

V4-Pro 的三档推理模式可以非常直观地说明"思考预算"对能力的放大效应:

| Benchmark | V4-Pro Non-Think | V4-Pro High | V4-Pro Max |
|---|---|---|---|
| HLE | 7.7 | 34.5 | 37.7 |
| Apex | 0.4 | 27.4 | 38.3 |
| HMMT 2026 | 31.7 | 94.0 | 95.2 |
| LiveCodeBench | 56.8 | 89.8 | 93.5 |

可以看到,从 Non-Think 切到 High,在硬核推理任务上的提升是几十分级别的——例如 HMMT 数学竞赛从 31.7 跳到 94.0。这印证了一个趋势:**当代大模型的能力上限,越来越多取决于推理时算力(test-time compute)**,而非纯粹的参数规模。Non-Think 模式则保留了快速响应路径,适合日常低风险任务。

## 六、部署与使用

值得注意的几个工程细节:

- **没有 Jinja chat template**:V4 没有沿用 Hugging Face 标准的 Jinja 模板,而是提供了一个独立的 `encoding` 文件夹,内含 Python 脚本和测试用例,负责把 OpenAI 兼容格式的消息编码为模型输入字符串、以及解析模型输出。这意味着接入现有推理框架时需要额外适配,不能简单复用 `tokenizer.apply_chat_template()`。
- **采样参数建议**:官方推荐 `temperature = 1.0, top_p = 1.0`。Think Max 模式下建议上下文窗口至少 384K。
- **本地部署**:仓库提供了 `inference` 文件夹,包含权重转换脚本和交互式 Demo,但 1.6T 总参数(即便是 FP4 + FP8 混合)对硬件的要求依然不低,普通用户跑起来仍然不现实,主要面向云厂商和研究机构。

## 七、总结与思考

DeepSeek-V4-Pro 这次发布,有几个信号值得重点关注:

**第一,开源阵营在编程能力上已经追上甚至反超闭源旗舰。** Codeforces 3206 和 LiveCodeBench 93.5 不是数字游戏——这意味着真实代码任务上,你用 V4-Pro 不会比用 GPT 或 Gemini 系列差,甚至可能更好。

**第二,长上下文的成本结构被改写了。** 27% FLOPs、10% KV Cache 是非常激进的数字。如果工程实测能贴近这个理论值,DeepSeek-V4-Pro 可能成为长文档处理、代码仓库分析等场景的默认选择,因为同样的硬件能跑更长的上下文,或者同样的上下文能服务更多并发。

**第三,在最硬的推理 benchmark 上,差距依然存在。** GPQA Diamond、HLE、Apex 这几个评测,V4-Pro 与 Gemini-3.1-Pro 之间还有几个百分点到十几个百分点的差距。开源模型要在这些维度上完全追平闭源旗舰,可能还需要一两代迭代。

**第四,MIT 协议+完整开源是这次发布最重要的部分。** 1.6T 参数 MoE、原生 1M 上下文、可商用——这套组合在任何商业闭源模型上都拿不到。对于需要私有化部署、对数据出域有顾虑、或者想做深度二次开发的团队,V4-Pro 的吸引力是独一份的。

DeepSeek-V4 不是一次"震惊业界"式的跳跃,但它把开源模型在工程效率、长上下文、编程能力这三条线上的水位,实打实地往上推了一截。这可能比单点指标的炸场更有意义。

---

原项目地址:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

DeepSeek-V4 是 DeepSeek 团队推出的新一代开源混合专家(MoE)大语言模型系列。该系列包含两款模型:

DeepSeek-V4-Pro 深度解析:一次面向百万级上下文的开源大模型迭代

DeepSeek-V4-Pro 是 DeepSeek 推出的 1.6T 参数开源 MoE 大模型(激活 49B),原生支持 100 万 token 上下文,MIT 协议商用友好。其 CSA+HCA 混合注意力架构在 1M 上下文下仅需 V3.2 的 27% FLOPs 和 10% KV Cache。

全栈开发

云计算

人工智能

编程语言

DeepSeek-V4-Pro是1.6T参数开源MoE大模型，支持100万token上下文，采用FP4+FP8混合精度降低部署门槛。在编程能力上超越GPT-5.4x和Gemini-3.1-Pro，Codeforces评分达3206。创新混合注意力架构使1M上下文推理成本仅为V3.2的27%，MIT协议完全开源商用无忧。

Python

快速部署LLM、AI绘画等应用,助你玩转AIGC！


文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云AI代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

功能1上新10个字符

功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符。

功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符。

功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符

功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符

功能4上新

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

精选全网热门MCP server，让你的AI更好用 🚀

💥开发者 MCP广场重磅上线！

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

DeepSeek-V4-Pro 深度解析:一次面向百万级上下文的开源大模型迭代-腾讯云开发者社区-腾讯云

DeepSeek-V4-Pro 深度解析:一次面向百万级上下文的开源大模型迭代

DeepSeek-V4-Pro 深度解析:一次面向百万级上下文的开源大模型迭代

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐