DeepSeek V4模型技术参数与性能分析

原创

用户11764306

发布于 2026-04-25 13:10:24

1370

中国AI实验室DeepSeek推出了其最新大语言模型DeepSeek V4的两个预览版本，这是对去年V3.2模型及伴随的R1推理模型的备受期待的更新，后者曾席卷AI领域。

该公司表示，DeepSeek V4 Flash和V4 Pro均为混合专家（Mixture-of-Experts）模型，每个模型拥有100万token的上下文窗口——足以让大型代码库或文档用于提示词中。混合专家方法涉及每个任务仅激活一定数量的参数，以降低推理成本。

Pro模型总计有1.6万亿参数（490亿激活），使其成为可用的最大开放权重模型，超过了某机构的Kimi K 2.6（1.1万亿）、某机构的M1（4560亿），并且是DeepSeek V3.2（6710亿）的两倍多。较小的V4 Flash模型有2840亿参数（130亿激活）。

DeepSeek表示，由于架构改进，这两个模型比DeepSeek V3.2更高效、性能更佳，并且在推理基准上几乎“缩小了”与当前领先模型（无论是开放还是闭源）的差距。

该公司声称，其新的V4-Pro-Max模型在推理基准上优于开源同行，并在某些任务上超过了某机构的GPT-5.2和某机构的Gemini 3.0 Pro。在编程竞赛基准中，DeepSeek表示两款V4模型的性能“与GPT-5.4相当”。

然而，这些模型在知识测试中似乎略微落后于前沿模型，特别是某机构的GPT-5.4和某机构最新的Gemini 3.1 Pro。该实验室写道，这种滞后表明“发展轨迹落后于最先进的前沿模型约3至6个月”。

V4 Flash和V4 Pro都仅支持文本，不像许多闭源同行那样支持理解并生成音频、视频和图像。

值得注意的是，DeepSeek V4比当今任何前沿模型都便宜得多。较小的V4 Flash模型每百万输入token成本0.14美元，每百万输出token成本0.28美元，价格低于GPT-5.4 Nano、Gemini 3.1 Flash、GPT-5.4 Mini和Claude Haiku 4.5。较大的V4 Pro模型每百万输入token成本0.145美元，每百万输出token成本3.48美元，同样低于Gemini 3.1 Pro、GPT-5.5、Claude Opus 4.7和GPT-5.4。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

计算机