大家可能听说过很多次,DeepSeek V4就要爱了,这一次可能是最靠谱的时间点了。 就在上周,多位知情人士透露,DeepSeek创始人梁文锋在内部已经明确了节奏:下一代旗舰大模型V4,计划于4月下旬正式与公众见面 。 但这一次,DeepSeek V4干了一件牛逼的事情:完全运行在华为昇腾950PR芯片之上,底层代码从CUDA全面转向华为自研的CANN框架 。 这意味着什么? 但其实我觉得 DeepSeek V4 虽然会比 V3 更好,但一定没有大家像之前期待的那么炸裂。 我们应该用正常的眼光来看待更多“平凡、也会犯错的 DeepSeek",哪怕崩溃了,V4 不那么惊艳,也并不影响 DeepSeek 的历史地位,已经它仍然是一家巨牛逼的公司。
DeepSeek V4不只是聊天机器人,它是能真正干活的AI助手。 一、DeepSeek V4是什么? 2026年4月24日,DeepSeek发布V4预览版,两个版本: V4-Pro:完整版,Agent能力强,推理性能顶级 V4-Flash:轻量版,速度快,成本低 核心能力: 百万字上下文:一次能读1M 保存为result.xlsx" 效果: 一次生成可运行的代码 自动处理异常情况 代码质量接近中级工程师水平 真实案例: 某开发团队用DeepSeek V4写代码,从"半天一个功能"到"1小时一个功能", 4 代码能力: V4-Pro接近Claude 4 Sonnet 长文本处理: V4(1M)> Claude(200K) 成本: V4更低 中文优化: V4更好 ▪ 5.3 vs DeepSeek V3 需要更高级功能,升级到Pro版 一句话带走: DeepSeek V4不是聊天机器人,是你的AI工作伙伴。
DeepSeek V4:结构性的成本革命 DeepSeek V4的核心突破在于解决了超长上下文大模型在推理阶段的效率瓶颈。 三、开源护城河 vs 商业生态圈 DeepSeek V4:深植开源社区,构建开发者生态 完全开源:采用MIT协议,个人和企业均可免费下载权重并商用,显著降低了技术门槛。 如果希望完全掌控模型并实现私有化部署,DeepSeek V4是明确的选择。 但如果追求极致的性能上限和完备的官方工具链,GPT-5.5依然是难以绕过的标杆。 四、总结 回到最初的问题:GPT-5.5和DeepSeek V4,哪个更好? 数据高度敏感,要求完全合规 ✅ DeepSeek V4系列 完全开源,支持私有化部署且适配华为昇腾芯片,可控性高。
DeepSeek从V3.1开始也走了这条路,V4当然也是混合架构。所以R2这个代号,大概率就这么退休了。就像OpenAI的o3,也成了最后一代独立推理模型,直接被吞进了GPT-5。 这个方向的评测目前还没有特别统一的标准,但各家内部测试和第三方机构的反馈,V4-Pro的Agent表现确实很能打。1.6万亿参数,大了两倍半V4-Pro的总参数量是1.6万亿。 在很多人觉得“参数规模不太重要了”的今天,DeepSeek用V4说了一句:大就是有效,大就是聪明,大就是领先。但“大”也有代价。参数涨了,推理成本就压不住。 比架构更值得关注的:国产算力V4发布当天,华为云就宣布昇腾超节点完成全栈适配。这背后工程量有多大?DeepSeek需要把大量原本跑在NVIDIAGPU上的CUDA代码,迁移到华为的CANN架构上。 DeepSeek作为国内最强开源力量,正在用V4把国产算力生态拉进真正的实战场景。而且MIT许可证全开源,任何人都能拿去用、拿去改、拿去商用。写在最后V4这次发布,没有去年R1那种颠覆式的震撼。
2026 年「术哥无界」系列实战文档 X 篇原创计划 第 93 篇,AI 星探「2026」系列第 11 篇大家好,欢迎来到 术哥无界 | ShugeX | 运维有术。 图 1:DeepSeek V4 核心要点全景2026 年 4 月 24 日,OpenAI 发布 GPT-5.5 后不到 24 小时,DeepSeek V4 预览版上线了。 翻完 58 页技术报告和十几篇社区评测,我的判断是:V4 不是一次简单的参数堆叠,而是一次围绕长上下文效率的架构重构。 这篇文章,我会从技术架构、评测数据、定价策略三个维度把 V4 拆开来看。最后也会聊聊:它到底算不算王者归来?1. DeepSeek V4 的思路不同。
DeepSeek 更新了V4? 下午5点左右,DeepSeek更新了一个新模型,据说是个小模型,整理能力我个人觉得比3.2是强一点的,但还比不上谷歌的Gemini 3,所以不确定是不是V4。 是不是很神奇,其实离DeepSeek R1发布才1年多,恍如隔世。
中国AI实验室DeepSeek推出了其最新大语言模型DeepSeek V4的两个预览版本,这是对去年V3.2模型及伴随的R1推理模型的备受期待的更新,后者曾席卷AI领域。 该公司表示,DeepSeek V4 Flash和V4 Pro均为混合专家(Mixture-of-Experts)模型,每个模型拥有100万token的上下文窗口——足以让大型代码库或文档用于提示词中。 DeepSeek表示,由于架构改进,这两个模型比DeepSeek V3.2更高效、性能更佳,并且在推理基准上几乎“缩小了”与当前领先模型(无论是开放还是闭源)的差距。 在编程竞赛基准中,DeepSeek表示两款V4模型的性能“与GPT-5.4相当”。 V4 Flash和V4 Pro都仅支持文本,不像许多闭源同行那样支持理解并生成音频、视频和图像。值得注意的是,DeepSeek V4比当今任何前沿模型都便宜得多。
昨天我们介绍了Deepseek V4 Pro预览版正式上线!它的PLC编程能力到底如何? 那对于我们RealPLC而言,必须实时更新下,把这个模型都接入进来。 01 申请DeepSeek API 我们首先到DeepSeek开发者平台,获取到API KEY。这是最重要的一步。 Step1:登录DeepSeek官网。 在设置界面里: AI提供方选择DeepSeek,模型任选一个,DeepSeek的API密钥填写刚刚保存备用的KEY。BaseURL填写: 确定好保存更改即可。 然后我们可以用专家场景里面的PID应用来测试下DeepSeek V4 Pro生成西门子PLC程序效果: 我们进入服务器后台可以看到,Job ID已经生成了,说明DeepSeek成功响应: 再回到我们的web
最后就是把Claude环境和模型配置下: 上图就是我们申请的DeepSeek API key。具体申请步骤参考: 把DeepSeek V4接入RealPLC,实现PLC自动编程! ="<your DeepSeek API Key>" $env:ANTHROPIC_MODEL="deepseek-v4-pro[1m]" $env:ANTHROPIC_DEFAULT_OPUS_MODEL ="deepseek-v4-flash" $env:CLAUDE_CODE_SUBAGENT_MODEL="deepseek-v4-flash" $env:CLAUDE_CODE_EFFORT_LEVEL /anthropic", "ANTHROPIC_AUTH_TOKEN":"<your DeepSeek API Key>", "ANTHROPIC_MODEL":"deepseek-v4 我们为了确认链接成功,可以问下它是谁,用的是哪家大模型,确定回复为deepseek-v4-pro。那么,这个时候你就可以愉快地使用这个CC和Deepseek V4 Pro开启AI编程对话之旅了。
日,DeepSeek 正式发布 V4 系列,同步开源。 "DeepSeek V4 不需要在每一项评测上赢,它只需要足够好,然后让价格做剩下的工作。" 评测项 DeepSeek V4-Pro Claude Opus 4.6 V4 表现 LiveCodeBench 代码生成 93.5% 88.8% ✅ 领先 SWE-Bench 软件工程 55.4% 64.3% DeepSeek 自己的内部评测也承认:「Agent Coding 体验优于 Sonnet 4.5,接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍有差距。」 这,才是 DeepSeek V4 最重要的地方。
DeepSeek-V4-Pro:性能比肩顶级闭源这是 V4 系列的满血版本,专为复杂任务和强推理场景设计:Agent 能力史诗级跃升: 在 Agentic Coding 评测中,V4-Pro 已经登顶当前开源模型榜首 据内部评测反馈,其作为 Agentic Coding 模型的使用体验已优于 Sonnet 4.5,交付质量更是逼近 Opus 4.6(非思考模式)。 数理与推理霸榜: 在数学、STEM、竞赛型代码等硬核测评中,V4-Pro 超越了当前所有已公开评测的开源模型,跻身世界第一梯队。 DeepSeek-V4 此次开创了一种全新的注意力机制:通过在 Token 维度进行深度压缩,并结合创新的 DSA 稀疏注意力(DeepSeek Sparse Attention) 机制,V4 在实现了全球领先的长上下文能力的同时 集合技术报告 (PDF): DeepSeek_V4.pdf结语从 V2 的 MoE 架构惊艳亮相,到 V3 的全面强化,再到今天 V4 带来的百万上下文与顶级 Agent 能力,DeepSeek 一直在践行其
均已更新APIapi.deepseek.commodel参数改为deepseek-v4-pro或deepseek-v4-flash与前代V3系列相比,V4的核心变化可以概括为"三个数量级跃升":1.上下文长度 DeepSeek-V4-Pro在AgenticCoding评测中取得了开源模型最佳成绩。 在数学、STEM和竞赛型代码评测中,V4-Pro超越了所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。 高性价比路线的取舍逻辑DeepSeek-V4-Flash是V4系列的经济版,它在推理能力上接近V4-Pro,但世界知识储备稍弱,换取的是更快的响应速度和更低的API成本。 结合V4引入的Engram记忆架构(据多方报道,这是V4的另一项架构创新),模型能在token维度进行高效压缩,将长上下文中的冗余信息浓缩为紧凑的表征,进一步降低实际计算开销。这对开发者意味着什么?
国产AI系统Milkyway登顶FutureX全球评测 FutureX评测榜单更新,字节跳动等联合研发的Milkyway以60.9分夺冠,xAI的Grok-4仅25.9分。 该评测聚焦未知问题推理能力,区别于传统知识型测试。此次登顶标志国产AI在高阶推理能力上实现突破,打破欧美模型垄断格局,提升中国AI全球话语权。 4. xAI公司11名联合创始人全部离职 马斯克旗下xAI公司11名联合创始人集体离职,创始团队彻底清零。外界推测与战略分歧、研发进度、商业化矛盾相关。 DeepSeek V4优先适配华为、寒武纪国产AI芯片 DeepSeek V4完成华为、寒武纪等国产AI芯片优化测试,未优先开放给美国芯片厂商。阿里、字节、腾讯等提前下单数十万颗华为新一代AI芯片。 综述 2026年3月底至4月初,AI领域呈现三大趋势:一是中美技术竞争进入白热化,国产AI在推理能力(Milkyway登顶)、芯片自主化(DeepSeek适配华为寒武纪)、量子计算(硅基原型验证)上全面突破
刚刚,DeepSeek 官方公众号发文:DeepSeek-V4 预览版:迈入百万上下文普惠时代。 全新 DeepSeek-V4 的预览版本正式上线。 V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。 现在登录官网什么,就已经是 V4了。 根据官方的报道,DeepSeek-V4-Pro:性能比肩顶级闭源模型,什么叫做比肩顶级闭源模型。 大家看看下面的对比图。 内部评测显示,其使用体验优于Sonnet 4.5,交付质量接近Opus 4.6 3、在数学、STEM(科学、技术、工程、数学)及竞赛级代码等推理测评中,均超越所有已公开评测的开源模型,达到世界顶级水平。 4、V4-Pro版本的世界知识储备,已大幅领先其他开源模型,仅次于顶尖闭源模型Gemini-Pro-3.1 5、深度适配华为昇腾算力:V4将运行在华为最新的昇腾(Ascend)芯片上。
Datawhale干货 作者:牧小熊,Datawhale成员 前言:大模型评测是一个系统工程,本文希望通过比较通俗的方式给大家直观感受大模型微调后的效果,相关是思路想法旨在起到抛砖引玉的效果,如果学习者对大模型评测有深厚的兴趣 为了方便学习与体验,本文中选择的模型是蒸馏后 DeepSeek-R1-Distill-Qwen-7B 模型,显卡选择是 RTX4090 24G。 Deepseek 模型以及数据集均来源于魔塔社区 medical-o1-reasoning-SFT。 1. 后记 大模型的评测是一个相对来说比较复杂且体系的内容,特别是金融与医疗领域涉及到比较强专业性,实际的企业部署过程中会有更加多样化的方法来评估模型生成的好坏。 本文的目的旨在对「Deepseek 微调文章」后续工作的延伸,也期望通过这种比较初级的方法帮助学习者了解微调与模型评测,起到抛砖引玉的效果,如果学习者对大模型评测有深厚的兴趣,可以从不同的角度进行学习。
DeepSeek V4 选择了一条更陡峭的上山路。 如果你只把 V4 当成一次“参数变大、跑分变高”的常规迭代,那就错过了正在上演的真正故事。DeepSeek V4 不是终点,而是中国大模型开源生态走向成熟的分水岭。 模型按大小分为两个版本:维度DeepSeek V4 Pro (旗舰版)DeepSeek V4 Flash (轻量版)总参数1.6T284B激活参数49B13B上下文长度1M Token (约 75 万字 第八章 性能全景:开源模型登顶全球第一梯队8.1 代码能力 LiveCodeBench:V4 Pro 取得 93.5 分,超越 Gemini 3.1 Pro、Claude Opus 4.6,领跑所有已评测模型 ,V4 Pro 已达到开源模型最佳水平 内部员工已全面使用 V4 替代 Claude,评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6
已经进 12 月了,再过一段时间就是 DeepSeek V3 发布一周年了,我还挺期待 DeepSeek 今年圣诞节再搞波大的,求求了!只要有 V4,我什么都会做的!V3.5 也行啊! 稀疏注意力机制,在不影响输出效果的前提下大幅降价 • 2025/10/23:发布 DeepSeek-OCR • 2025/11/27:发布 DeepSeek-Math-V2 • 2025/12/1:发布 从这种角度上讲,大家觉得,DeepSeek 是发 V4 更恐怖,还是发 V3.3、3.4…3.9…3.99 更恐怖呢? DeepSeek 现在就给我这种,厚积薄发练内功的感觉。 在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。也就是说,V3.2-Exp 几乎实现**「无损压缩」**。 V4 还会远吗?我充满期待。
在编码、研究、数据分析方面表现出色,在SWE-bench等专业评测中超越Claude Opus 4.7和Gemini 3.1 Pro。API于4月24日开放,价格翻倍。 2. DeepSeek发布V4系列模型 DeepSeek发布V4系列模型,包括V4-Pro(1.6万亿参数,490亿活跃参数)和V4-Flash(2840亿参数,130亿活跃参数),均支持100万token上下文窗口 V4-Pro在Agentic Coding和知识评测中表现卓越,仅落后于Gemini-3.1-Pro。模型采用新型注意力机制和稀疏注意力技术,大幅降低长上下文计算成本。 这是DeepSeek成立三年来首次接受外部投资,主要目的为员工期权定价和稳定核心团队。DeepSeek由幻方量化创始人梁文锋于2023年创立,此前一直坚持不接受外部融资。 Anthropic Claude Opus 4.7上线Bedrock,DeepSeek发布V4系列,Kimi K2.6支持300子代理协同,模型能力持续突破。
时间回到一年多前,DeepSeek-R1的横空出世,为狂奔的大模型创业赛踩了一脚刹车,进入决赛圈的大模型“六小虎”首当其冲。 和硅谷最大的区别,DeepSeek没有扮演吃掉池子里所有鱼的“鲨鱼”,而是像鲶鱼一样激活了整个中国大模型生态,大家纷纷拥抱开源。 有了DeepSeek贡献的“业界标准”,月之暗面在内的大模型团队不需要重复造轮子,快速降低了推理成本。故事并未止步于此。 DeepSeek在训练V4大模型时,同样采用了被验证过的Muon优化器。需要说明的是,开源大模型的“协同进化”并未陷入同质化,正在走向一条“和而不同”的道路。 2025年8月发布的GPT-5,训练成本超过5亿美元;同期的KimiK2Thinking,训练成本约460万美元;DeepSeek没有公布V4系列模型的训练成本,但V3模型仅花费了557.6万美元...
最近刷遍各类技术社群、海外社交平台,被一个名字反复轰炸—— DeepSeek V4 。 (全程基于公开爆料和DeepSeek迭代规律推测,非官方实锤,理性看待~) 01 先回顾:DeepSeek的迭代,从来都是“跨越式升级” 要读懂V4的期待值,先得看看DeepSeek的“成长履历”——从 02 爆料汇总:DeepSeek V4,可能藏着这4大核心突破 目前关于V4的官方信息几乎为零,但结合行业爆料、OpenRouter平台的神秘模型猜测,以及DeepSeek的技术路线,我们可以梳理出几个最值得期待的方向 要知道,V3已经能在多项评测中媲美GPT-4o和Claude-3.5-Sonnet,而V4如果在架构上实现突破,加上可能进一步提升的训练数据量(预计远超V3的14.8T tokens),其在知识储备、推理能力 作为长期关注国产AI的博主,我会第一时间跟进V4的发布动态,一旦有官方消息、实测体验,会第一时间分享给大家。 最后想问大家:你最期待DeepSeek V4的哪个功能?