首页
学习
活动
专区
圈层
工具
发布

DeepSeek-V4发布!高效百万上下文智能普惠时代来了

DeepSeek-V4终于来了。

对开源社区而言,这是一次关键的分水岭。

DeepSeek-V4的技术突破,解决了处理超长文本时的效率核心痛点,使长上下文能力由少数科技巨头手中的奢侈品变成了普惠社区和开发者的标配。

架构与优化的关键突破

DeepSeek-V4 系列,在架构与优化方面实现了多项关键升级。其中最重要的3项是:

1,混合注意力架构:一种结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力机制,显著提升了长上下文处理效率。

在百万 token 上下文场景下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2 仅需 27% 的单 token 推理 FLOPs 和 10% 的 KV 缓存。

2,流形约束超连接(Manifold-Constrained Hyper-Connections, mHC):mHC 引入,增强了传统的残差连接,在保持模型表达能力的同时,提升了跨层信号传播的稳定性。

3,Muon 优化器:Muon 优化器以实现更快的收敛速度和更高的训练稳定性。

过去,处理超长文本需要海量计算,而 DeepSeek-V4 的核心技术革新,让模型处理文本时会区分信息的轻重缓急,进行选择性计算,将处理百万 Token 的算力消耗与 KV 缓存占用大幅降低。

这使得开源社区,以前因成本问题而难以规模化应用的场景被彻底打开。开发者现在可以一次性让 AI 分析整个代码仓库,企业能低成本地上传海量文档进行深度分析,学术界也能将整部著作交给 AI,以此解锁更多创新应用。

DeepSeek 宣布“从现在开始,1M 上下文将是 DeepSeek 所有官方服务的标配”,晰地定下了新基调。过去需要高价购买或额外申请的能力,现在已成了开源社区的默认配置。

DeepSeek V4-Flash 版本的 API 输出定价仅为 2 元人民币/百万 token(约 0.3 美元),而就在前一天,OpenAI 发布的 GPT-5.5 定价为 30 美元/百万 token,高达百倍的差价。

现在,个人开发者和中小企业也能以极低成本调用顶尖模型,打破了成本壁垒。

而且,DeepSeek-V4已全面适配国产芯片。开源社区摆脱了单纯依赖英伟达CUDA生态,开启探索自主可控的多元化算力时代。

模型版本参数配置

DeepSeek-V4 系列预览版本,包含两款强大的混合专家(Mixture-of-Experts, MoE)模型。

DeepSeek-V4-Pro(总参数量 1.6T,激活参数量 49B)和 DeepSeek-V4-Flash(总参数量 284B,激活参数量 13B),二者均支持 百万 token 的上下文长度。

其中基础版采用 FP8 精度,指令微调版是 FP4 + FP8 混合(MoE 专家参数使用 FP4 精度,其余大部分参数使用 FP8)。

与前代相比,即使是 284B 的 Flash 版,性能也全面提升。

指令微调版,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理强度模式。

相同推理模式下,DeepSeek-V4-Flash 相比 DeepSeek-V4-Pro,性能差距很小,价格却低了十多倍(输出),这对日常任务使用和开源社区,简直就是宝藏模型。

性能比肩顶级闭源模型

DeepSeek-V4-Pro-Max 性能,与世界顶级闭源模型的差距已经很小。

相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。

在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。

官方表示,目前 DeepSeek-V4 已成为 DeepSeek 公司内部员工使用的 Agentic Coding 模型,评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。

DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

DeepSeek-V4 还针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。

DeepSeek-V4 上线,将成为开源社区百万长上下文和高性能 Agent 两大未来趋势有力推动者。它通过架构创新,在不牺牲性能的前提下,极大降低大模型的门槛。

参考资料:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2_zoGhPgQROpCqM7-MH3kYw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券