DeepSeek 前几天发布了 V3.2 的正式版公告。 标准版的DeepSeek - V3.2适用于日常场景,而DeepSeek - V3.2 - Speciale 则具备较强的指令跟随、数学证明和逻辑验证能力。 DeepSeek v3.2 证明了通过稀疏注意力机制,可以在消费级或中端算力上实现同等效果。这将直接拉低 RAG(检索增强生成)和长文档分析的落地门槛。 本地部署实战指南对于想要在本地运行 DeepSeek V3.2 的用户,或者希望通过 API 集成新特性的工程师来说,Python 环境配置是一个关卡。 ", messages=messages, stream=True)print("DeepSeek V3.2 正在思考并回答...
新智元报道 编辑:艾伦 【新智元导读】DeepSeek V3.2的Agentic能力大增,离不开这项关键机制:Interleaved Thinking(交错思维链)。 AWS re:Invent 2025大会上,AWS CEO宣布Amazon Bedrock模型库迎来扩容,MiniMax M2作为中国模型代表在列 英雄所见略同 DeepSeek V3.2和Kimi K2 Thinking的入局 DeepSeek V3.2和Kimi K2 Thinking的发布,宣告了这条路正式成为了通往未来的主干道。 最近引发轰动的DeepSeek V3.2,其核心特性之一「Thinking in Tool-Use」(使用工具中思考),在本质上与MiniMax倡导的交错思维链是完全一致的。 参考资料: 全球调用量前三,交错思维链解锁M2的Agent能力 DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
DeepSeek-V3.1 加 ClaudeCode,AI编程强强联合,附教程 DeepSeek V3.2-Exp炸裂升级!长文本处理效率翻倍,API价格腰斩! 对比接口至2025年,方便测试; 行业影响: • AI竞争从“效果竞赛”转向效率革命 • 长文本处理成本门槛被彻底打破 • 开源策略加速社区生态共建 一句话总结:用更少的钱,跑更长的文本,DeepSeek
1.2 DeepSeek V3.2 的解码特征概览 与 OpenAI 的 o1 系列模型类似,DeepSeek V3.2 强调推理过程的重要性,但其解码架构展现出了独特的技术路线和开源生态的适应性: 显性思维流 DeepSeek V3.2 引入的 DeepSeek 稀疏注意力(DSA) 机制,是其能够进行长程推理的物理基础。 比较视野:DeepSeek V3.2 与行业前沿的解码博弈 将 DeepSeek V3.2 置于全球 LLM 发展的坐标系中,可以更清晰地看到其解码策略的独特性。 工程实践与部署:驾驭 V3.2 的解码特性 在实际部署 DeepSeek V3.2 时,工程师必须针对其独特的解码特性进行适配。 DeepSeek V3.2 的解码特色,正是这一未来图景的底层代码。
这么说吧,如果说之前的AI模型竞赛是“百米冲刺”,比谁跑得快(性能高),那DeepSeek V3.2则是在“马拉松”赛道上,不仅跑得快,还跑得极其省力(效率高)! 而DeepSeek V3.2的杀手锏——深度求索稀疏注意力(DeepSeek Sparse Attention, DSA)——就是来治这个病的。 图:DeepSeek-V3.1与V3.2在不同文本长度下的推理成本对比(来源:DeepSeek官方论文) 这张图分为左右两部分,左边是预填充(Prefilling)成本,右边是解码(Decoding)成本 这意味着,你的应用场景上下文越长,用V3.2就越省钱。 这图都不用过多解释,视觉冲击力已经拉满。对于企业来说,成本就是生命线。DeepSeek V3.2这一手,让更多企业和开发者“用得起,用得爽”! DeepSeek V3.2的发布,至少给我们带来了三个值得深度思考的机遇: 长文本应用场景的“解冻”:以前很多被成本和延迟“冻结”的场景,现在可以拿出来重新评估了。
1.1DeepSeek 系列模型的技术背景 DeepSeek-V3.2-Exp 系列模型本身已经不是“搭个 transformer、堆点层数”这么简单的结构,而是集成了大量面向性能和长上下文的复杂机制, 对于像 DeepSeek-V3.2-Exp 这种结构复杂的模型,这种“可拼装式 Operator”反而更灵活。 这也是为什么 DeepSeek 官方提供 PyPTO Operator Guide,而不是让开发者直接去写内核。 三、PyPTO 如何处理 DeepSeek 模型 当我们真正走进 PyPTO 的算子内部,会发现它处理的都是 DeepSeek 模型中最“重”的部分:Query/Key 的前置计算、量化路径、RoPE 也就是说,PrologQuant 是 DeepSeek 模型推理性能的第一块基石。
3.2 Shell命令 ============= 一个简单命令如echo a b c由命令自身和后面的变元组成, 并以空格分隔. 复杂命令是由简单命令用以下方式组合而成: 管道线(使前面命令的输出变成后面 命令的输入), 循环或条件结构, 或者其他组合形式. 3.2.1 简单命令 -------------- 简单命令是最常见的命令. 一个简单命令就是一串以控制操作符结尾并用空白符 (*参见 2 定义::)分隔的单词. 通常第一个单词指定了要执行的命令, 剩余的单词 都是该命令的变元. 一个简单命令的返回状态就是POSIX 1003.1 waitpid函数提供的退出状态. 如果 命令被信号n终结, 则其返回状态是128+n. 3.2.2 管道线 ------------ 一个管道线就是由'|'分隔的一串简单命令. 管道线的形式是: [time [-p]] [!] command1 [| command2 ... ] 管道线中每个命令的输出通过管道连接到下一个命令的输入, 就是说, 每个命令读取 了前一个命令的输出. 使用保留字time会在管道线执行结束时打印出其计时数据. 目前计时数据包含该 管道线执行所消耗的总逝去时间, 用户态时间和系统态时间. 选项'-p'把时间输出 格式调整为POSIX所指定的格式. 可以设置TIMEFORMAT变量来指定如何显示时间信息. 关于有哪些可用的格式, *参见 5.2 Bash变量. 将time作为保留字使用使得对shell 内部命令, shell函数, 及管道线的时间测量成为可能. 这一点如果用外部time命令 则不容易做到. 如果管道线不是异步地执行(*参见 3.2.3 命令列表::), 则shell会等待管道线 中所有命令运行结束. 管道线中的每个命令都在各自的子shell中运行(*参见 3.7.3 命令执行环境). 如果pipefail选项被关闭(*参见 4.3 Set内部命令), 管道线的退出状态就是管道线 中最后一个结束命令的退出状态. 如果pipefail选项开启, 管道线的退出状态是最后 (最右)一个拥有非零退出状态的命令的退出状态, 或是0如果所有命令都成功退出. 若 管道线前面出现保留字'!', 则退出状态是上述所描述情况的逻辑反. Shell等到管道 线内所有命令结束才返回值. 3.2.3 命令列表 -------------- 列表是指一个或多个管道线组成的序列, 它们以';', '&', '&&' 或'||'分隔, 并可选地以';', '&', 或newline结束. 在这些列表操作符中, '&&'和'||'具有相同的优先级, ';'和'&'具有相同的优先 级, 且'&&'和'||'的优先级比';'和'&'要高. 在列表中, 也可用一个或多个newline组成的序列来分隔命令, 这点上和';'等价. 当一个命令以控制操作符'&'结尾时, shell将该命令放入一个子shell中异步地 执行. 这也被称为将命令放在后台执行. Shell不会等该命令结束, 而是立即以返回 状态0(真)返回. 在shell的任务控制功能没有启用(*参见 7 任务控制), 而且又没有 任何显式的重定向的时候, 此异步命令的输入将会从/dev/null重定向而得. 用';'分隔的命令顺序地执行; shell依次等待每个命令执行完毕. 最后的返回 状态由最后一个命令的退出状态决定. 控制操作符'&&'和'||'分别表示列表的'与'和'或'. 列表与的形式是: command1 && command2 当且仅当command1的退出状态为零时command2才被执行. 列表或的形式为: command1 || command2 当且仅当command1的退出状态非零时command2才被执行. 列表与和列表或的返回状态由列表中最后一个执行的命令的退出状态决定. 3.2.4 复合命令 -------------- 符号命令是shell编程特性的一个构造. 每个构造以一个保留字或控制操作符开始, 以一个对应的保留字或控制操作符结束. 在没有显式覆盖时, 任何针对复合命令的重 定向都对该复合命令内的所有命令起作用. Bash提供循环结构, 条件结构, 以及将命令组合起来作为一个基本单元的机制. 3.2.4.1 循环结构 ................ Bash支持以下循环结构. 注意在以下命令语法描述中, 任何';'出现的地方都可以用一个或多个newline替代. 'until
我都记不清这是DeepSeek官方今天的多少次开源模型了,只能说每次都给我们一个惊喜。从年初的R1到现在的V3.2版本,只能说DeepSeek无愧是开源界的“源神”称号。 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 新版本模型更适合Agent用法:思考模型可调用工具DeepSeek这次更加明确强调:V3.2是为agent工具调用而优化的。 值得说明的是,V3.2并没有针对这些测试集的工具进行特殊训练,也就是能够广泛适配不同的任务。官方举了一个例子,使用DeepSeek构建的“旅行助手”能够快速给出具体的旅游攻略出来。 V3.2适合当主力模型,V3.2-Speciale更像是“极限推理外挂”。
DeepSeek依旧保持了不让程序猿们安心过长假的优良传统,在十一长假之前推出了DeepSeek-V3.2报告,之前一直在跟进DeepSeek的加速技术,第一时间看了报告,不长就6页纸,优化点也不多,本来想第一时间更新 01 从DeepSeek-V3说起 之前写过一篇比较长的关于DeepSeek-V3的加速分析,从模型结构到工程提速都有介绍DeepSeek-V3的加速技术,这里在文章开始之前先简单总结一下 V3 的技术亮点 02 DeepSeek的Sparse Attention概念 因为消化发酵了一下,所以先回顾一下历史,V3.2并不是DeepSeek第一次提出Sparse Attention的概念。 selected后,就是这次V3.2提出的DSA(DeepSeek Sparse Attention),估计加入第三并行分支后应该还是这个名字。 03 V3.2的DSA详解 从上面我们讲解中提到了,V3.2的DAS就是V3的第一分支MLA加上第二分支selected attention for important token blocks,为了加速和适配
12月1日,DeepSeek发布的新一代的“双机组合”——V3.2 和 V3.2-Speciale,把这套共识拧了一下:一边是在综合推理上对齐 GPT-5、并且 MIT 协议开源的主力模型 DeepSeek-V3.2 PART 2|DeepSeek-V3.2的技术优势:一块“能落地”的高阶推理底座从技术侧看,这一代 DeepSeek 更像是一套“推理底座”: ● V3.2 负责日常业务、Agent 和长文本。 2.DeepSeek-V3.2-Speciale:只干一件事——把推理上限顶上去如果说 V3.2 是日常场景里的“全能主力”,那 V3.2-Speciale 就是专门去打最难考试的那位“考王”。 比较现实的分工是:日常产品、智能体、长文本处理交给 V3.2;真正遇到“这题一定要想得特别透”的场景,再把 Speciale 拉出来当压轴。 ● 验证有效,再把主干迁回自建环境 ○ 一旦发现某些场景对 V3.2 依赖度很高,再考虑把权重拉回自建集群; ○ 同时把监控、日志、弹性扩缩容这些基础设施配齐。
开源与闭源的差距正在被重新定义2025年12月1日,DeepSeek发布了正式版V3.2及其高性能变体V3.2-Speciale。 与MLA的协同设计V3.2基于DeepSeek系列的MLA(Multi-head Latent Attention)架构实现DSA。 DeepSeek技术报告推测如果继续投入更多计算资源,性能还能进一步增强。 V3.2的解决方案是:系统性地合成Agent训练任务。思考上下文管理:让推理能力服务于工具调用DeepSeek-R1已经证明,引入thinking过程可以显著增强模型解决复杂问题的能力。 Deepseek V3.2的发布,再次拉响开源模型攀登AGI之路的号角,开源模型不会错过,也不能错过智能平权的伟大时代。
忘掉暂时的悲伤 世界自然会慢慢为你展开 前几天,DeepSeek 毫无预兆 地放出两枚“核弹”: 模型 定位 关键能力 适用场景 DeepSeek-V3.2 平衡实用型 推理≈GPT-5,首个“思考融入工具调用 划重点: - V3.2 在 Agent 工具调用评测 中登顶开源模型榜首 - Speciale 模型斩获 IMO 2025、CMO 2025、ICPC World Finals 金牌(ICPC 人类第二 600 分 320 分 ✅ 排名全人类第 10 IMO 2025 几何/数论全对 金牌线 29/42 ✅ 金牌水平 ⚠️ 注意:Speciale 不支持工具调用,仅限研究/API调用,日常对话体验不如 V3.2 Routing(冻结推理时专家路径) 训练/推理一致性↑ 专家蒸馏训练管线: 6 大专家模型 数学 编程 通用逻辑 通用Agent Agent-编程 Agent-搜索 生成高质量蒸馏数据 统一训练 V3.2 支持 思考模式 / 非思考模式 双工具调用 系统 prompt 引导模型: > *“先推理 → 再决定是否调工具 → 工具结果反哺推理”* ✅ ② 上下文冷启动优化 策略 旧模型(如 R1) V3.2
DeepSeek-V3.2-Exp更新了好好好,卡在了国庆节的前一天发布DeepSeek-V3.2-Exp,真的不让人活了~感觉每次重大节假日已经成为DeepSeek发布新模型的。 DeepSeek-V3.2已经同步发布了自己的技术报告,具体可以看这里https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3 V3.2有什么特点 然后用SVG画一个思维导图,来介绍一下能够把最新模型在核心技术、成本优势、效率提升三个方面刻画出来。 试一下最新版本的V3.2在游戏编程上的效果界面中很好的区分不同的主题。比如前景绿色+蓝色方块代表玩家飞机。红色主体+黄色翅膀的是敌机。粉色小方块是子弹(敌方或玩家发射的子弹)。 可以发现V3.2对比V3.1有明显的进步可以看到V3.2已经可以创建出比较符合的游戏场景了。而V3.1构建的场景则很简陋,完全看不出“我的世界”中的一些主题信息。
毕竟DeepSeek承载了太多国人的期待,这次,DeepSeek-V3.2正式版,没有让我们失望。 这次发布的,不是一个模型,而是两个。 DeepSeek-V3.2(标准版)定位是“全能型选手”。 以下是对比数据: 从数据中我们可以清晰地读出三点: 能力对标V3.2的推理能力确实已经和GPT-5-High在同一梯队,互有胜负。 效率优势相比国内同样以推理见长的Kimi-K2-Thinking,V3.2在取得相似甚至更高分数的同时,消耗的tokens(括号内数字)减少了近40%-50%。 通过在这种海量、高质量的“逆向工程”任务中进行强化学习,V3.2学会了真正的“运筹帷幄”。 泛化潜力官方特别强调,V3.2并没有针对这些评测集进行特殊训练。这意味着它在训练中学会的是通用的、可泛化的Agent能力,这在真实应用场景中的价值,远高于在某个榜单上刷分。
我毫不怀疑,在春节期间,DeepSeek将会发布自己的新模型。这是因为,每次一到重大的节日,DS发新模型已经算是传统了。 它最新爆料就称:DeepSeek预计将在未来几周发布下一代模型DeepSeek-V4,并将重点强化代码能力;而且重点是在公司内部基准测试中,V4在编码任务上的表现已超过Anthropic的Claude以及 要知道刚刚DeepSeek更新到了最新的V3.2模型。所以一个比较合理的猜测在于,下一代模型很可能启动一次全新的预训练,而不会只是基于V3继续做优化。 之前的V3.1、V3.2,本质是在V3的基础上做能力增强和调整,其上限仍受限于最初的预训练规模和知识覆盖范围。虽然,V3.2在推理能力上有明显大幅的增强。 值得说明的是,V3.2并没有针对这些测试集的工具进行特殊训练,也就是能够广泛适配不同的任务。
DeepSeekMath-V2 & V3.2:自验证与工具的融合 • 关键节点:11月27日,12月1日 • 核心动作:Math-V2 引入自验证机制;V3.2 将 Thinking 融入 Tool-use DeepSeek-V3.2: 如果说 R1 是 “会思考的大脑”,V3.1 是 “会用工具的手”,那么 V3.2 就是二者的结合体。 它不再区分 思考模式 和 工具模式,而是支持 在思考过程中调用工具,配合 1,800+ 虚拟环境 和 85k+ 复杂指令 的合成数据训练,V3.2 成为了一个真正的 Agentic Reasoning V3.2 证明了 Scalable RL(可扩展强化学习) 在 Agent 领域的有效性。 推理工业化从 R1 到 V3.2,证明了推理能力不是玄学,而是可以通过 RL 和合成数据进行规模化生产的工业品,只要算力到位,Pipeline 设计得当,模型就能自己变聪明。 2.
在有了提示词后,我们接着AI编程,在这里使用iflow cli+DeepSeek V3.2大模型进行AI编程,让AI输出完整的Html动态展示页面。 我原来还写过一篇文章,就是借助DeepSeek来构建某个知识领域的知识图谱和知识网络,参考如下: 那么上面的可视化展现还可以进一步优化,即增加知识点之间的关联和依赖,有了知识关联和双向知识链接,我们就更加容易基于知识立方体构建基于某个目标的知识地图和学习路径 下面是DeepSeek V3.2输出的源代码,参考如下: 具体源代码如下: <!
其次,正式支持 Deepseek v32 模型,使 lmdeploy 能够覆盖更多新一代大模型推理需求。 这些功能扩展为用户在不同模型和不同硬件架构下的部署提供了更广泛的选择。
直达原文:【春季发布】OpsPilot V3.2 重磅发布:从私域到开放,新增联网检索能力在数字化转型浪潮中,运维工作复杂度飙升,传统智能运维平台知识更新滞后,难以满足实时精准问答需求,传统智能运维平台私域知识库的局限性愈发凸显 嘉为蓝鲸 OpsPilot 敏锐洞察痛点,OpsPilot V3.2正式发布,新增联网检索功能,突破私域知识局限。 01.联网检索: 突破私域局限,实时获取全网数据OpsPilot此前已经接入并使用LLM大模型,如文心一言、deepseek等,并支持私域知识的上传和处理,但是大模型和私域知识存在数据滞后、数据更新慢等局限 ,故OpsPilot V3.2新增的联网检索功能,能获取实时、最新且广泛的网络数据,在LLM大模型和私域知识库的基础上,让Bot的数据来源更具有时效性,让运维人员得以从互联网获取更全面、及时、精准的知识 1)LLM大模型OpsPilot 允许接入国内外大模型,如 DeepSeek、ChatGPT、文心一言等。
9月29日晚间,国产人工智能(AI)技术厂商深度求索(DeepSeek)宣布正式发布DeepSeek-V3.2-Exp模型,正如其名称所示的那样,这是一个基于V3.2实验性(Experimental)的版本 作为迈向新一代架构的中间步骤,Deepseek V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证 目前,Deepseek官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时 API 大幅度降价。 值得注意的是,在DeepSeek-V3.2-Exp模型发布的同一天,国产AI芯片大厂寒武纪就宣布,已同步实现对DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。 寒武纪表示,依托DeepSeek-V3.2-Exp带来的全新DeepSeek Sparse Attention机制,叠加寒武纪的极致计算效率,可大幅降低长序列场景下的训推成本,共同为客户提供极具竞争力的软硬件解决方案