首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek V4模型技术参数与性能分析

DeepSeek V4模型技术参数与性能分析

原创
作者头像
用户11764306
发布2026-04-25 13:10:24
发布2026-04-25 13:10:24
1370
举报

中国AI实验室DeepSeek推出了其最新大语言模型DeepSeek V4的两个预览版本,这是对去年V3.2模型及伴随的R1推理模型的备受期待的更新,后者曾席卷AI领域。

该公司表示,DeepSeek V4 Flash和V4 Pro均为混合专家(Mixture-of-Experts)模型,每个模型拥有100万token的上下文窗口——足以让大型代码库或文档用于提示词中。混合专家方法涉及每个任务仅激活一定数量的参数,以降低推理成本。

Pro模型总计有1.6万亿参数(490亿激活),使其成为可用的最大开放权重模型,超过了某机构的Kimi K 2.6(1.1万亿)、某机构的M1(4560亿),并且是DeepSeek V3.2(6710亿)的两倍多。较小的V4 Flash模型有2840亿参数(130亿激活)。

DeepSeek表示,由于架构改进,这两个模型比DeepSeek V3.2更高效、性能更佳,并且在推理基准上几乎“缩小了”与当前领先模型(无论是开放还是闭源)的差距。

该公司声称,其新的V4-Pro-Max模型在推理基准上优于开源同行,并在某些任务上超过了某机构的GPT-5.2和某机构的Gemini 3.0 Pro。在编程竞赛基准中,DeepSeek表示两款V4模型的性能“与GPT-5.4相当”。

然而,这些模型在知识测试中似乎略微落后于前沿模型,特别是某机构的GPT-5.4和某机构最新的Gemini 3.1 Pro。该实验室写道,这种滞后表明“发展轨迹落后于最先进的前沿模型约3至6个月”。

V4 Flash和V4 Pro都仅支持文本,不像许多闭源同行那样支持理解并生成音频、视频和图像。

值得注意的是,DeepSeek V4比当今任何前沿模型都便宜得多。较小的V4 Flash模型每百万输入token成本0.14美元,每百万输出token成本0.28美元,价格低于GPT-5.4 Nano、Gemini 3.1 Flash、GPT-5.4 Mini和Claude Haiku 4.5。较大的V4 Pro模型每百万输入token成本0.145美元,每百万输出token成本3.48美元,同样低于Gemini 3.1 Pro、GPT-5.5、Claude Opus 4.7和GPT-5.4。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档