Claude Opus 4.7 发布:更像一个真正能干活的模型了
Opus 4.7终于发布了。官方把它定位为“目前能力最强的通用可用模型”,重点强化了 编码、Agent 长程任务、视觉、多步复杂工作流、记忆相关任务。
虽然这一次模型升级了,但是价格很公道。新版本的价格维持在与 Opus 4.6 相同的 输入每百万 token 5 美元、输出每百万 token 25 美元。
Opus 4.7 发布时同时带上了自动识别并拦截高风险网络安全用途请求的防护措施,会帮助他们为未来更强的 “Mythos 级”模型做广泛发布准备。从整体的效果来看,它具备了四个方面的优点:
指令遵循更强。 一些为早期模型编写的提示词,放到 Opus 4.7 上可能会出现意料之外的结果。因为旧模型往往会宽松理解,甚至直接忽略部分指令,而 Opus 4.7 更倾向于严格按字面执行,所以提示词也需要随之调整。
多模态能力进一步提升。 Opus 4.7 对高分辨率图像的处理更强,长边最高支持 2576 像素(约 375 万像素),是此前 Claude 模型的三倍以上。这让它更适合处理依赖细节的视觉任务,比如读取密集截图、解析复杂图表,以及需要像素级定位的场景。
更贴近真实工作。 除了在财务代理评测中取得领先表现,Anthropic 的内部测试也显示,Opus 4.7 相比 Opus 4.6 在分析严谨性、模型构建、演示质量和跨任务整合上都有提升。同时,它也是第三方高价值知识工作评测 GDPval-AA 的最新最佳结果。
记忆能力更实用。 Opus 4.7 在基于文件系统的记忆使用上表现更好,能够在长周期、多轮任务中保留关键笔记,并在新任务中继续利用这些信息,从而减少反复补充背景的成本。
在视觉识别能力上,它能看到更高分辨率的图像。在完成专业任务时,它更具品味和创意,制作出更高质量的界面、幻灯片和文档。虽然它的能力还没有Claude Mythos Preview强,但在多个基准测试中表现优于Opus 4.6:
从上面这个效果来看。它的提升重点集中在:编程、工具调用、视觉推理、Agent 长链路执行更强
第一,4.7 相比 4.6,最大提升就是“Agentic coding”。
SWE-bench Pro:53.4% 64.3%
SWE-bench Verified:80.8% 87.6%
在真实软件工程任务上有比较明显的一档升级。Anthropic 官方也明确把 Opus 4.7 的主要升级点描述为:在高级软件工程、复杂长任务、需要较少监督的编码工作上更强。
第二,它在终端型 Agent 执行上也更稳了,但还不是全场第一。
TerminalBench 2.0 这一项里,图上是:
Opus 4.7:69.4%
GPT-5.4:75.1%
Mythos Preview:82.0%
这意味着 Opus 4.7 的确适合做“会写代码、会跑命令、会串工具”的执行型 Agent,但在终端实操闭环这件事上,至少还是不能够超越自己的Mythos 模型。(搞得我以为Anthropic 一直在宣传Mythos ?)
第三,它在工具使用能力上进步也是有的。
图里 MCP-Atlas 这一项:
Opus 4.7:77.3%
Opus 4.6:75.8%
GPT-5.4:68.1%
Gemini 3.1 Pro:73.9%
4.7 更像一个会调工具干活的模型。Claude系列模型一直在强化 tool use、computer use、agent workflow 能力。官方模型总览也把 Claude 系列定位成适合推理、视觉分析、工具使用、computer use的一类模型。
其他方面的优化
文档推理上和长上下文推理上,Opus4.7都是最高的。
这意味着它真正具备了在超长材料中持续抓住重点、理清结构并输出结论的能力。面对长篇报告、复杂代码库、多轮对话记录、冗长合同或研究资料时,Opus 4.7 能更稳定地保持上下文一致性,不容易中途跑偏,也更擅长从分散信息里抽取关键线索,完成跨段落、跨章节、跨任务的综合推理。
还有一个是迁移带来的影响~
Opus 4.7 是 Opus 4.6 的直接升级版,但有两点变化值得提前关注,因为都会影响 Token 消耗。
首先,Opus 4.7 使用了新的分词器,文本处理方式更优化,但同样内容对应的 Token 数也可能更高,通常约为1.0 到 1.35 倍,具体取决于内容类型。
其次,Opus 4.7 在高努力等级下会进行更多思考,尤其是在智能体场景的后期回合。这提升了复杂任务的可靠性,但也会带来更多输出 Token。
不过,用户仍然可以通过多种方式控制消耗,比如调整 effort 参数、设置任务预算,或直接要求模型更简洁。在 Anthropic 的内部测试中,整体结果仍然是正向可控的:虽然 Token 使用有所变化,但各努力等级下的编码效率都有提升。真正迁移时,最好还是结合真实流量进行测量,并参考官方迁移指南完成参数调整。
会检查自己答案的模型
Opus 4.7 补上了一个过去不算突出的能力:先自我验证,再汇报结果。
如果发现问题,它会先在内部修正,再把答案交给你。听上去只是多了一步检查,但放到智能体长时间自主运行的场景里,这一步非常关键。过去让 Claude 连续跑几个小时,往往到最后才发现中间某个环节出了问题;现在,它更有能力在过程里自己发现、自己纠偏。
这意味着,很多原本必须人工兜底的时刻,又往后退了一层。
从实际效果看,这种变化已经开始体现价值。Rakuten 在生产任务中使用 Opus 4.7 后,问题解决率提升了 3 倍,代码质量也出现了非常明显的提升。
写在最后
如果说 Opus 4.7 最大的价值是什么,是它开始更像一个真正能干活的模型了。
这次升级更适合进入真实工作流:代码写得更稳,工具调用更顺,自我检查也更强。
当然,能力更强的另一面,是 Token 消耗和使用方式也变得更值得关注。对于真正要把它接进生产环境的人来说,这次升级不只是换个版本号,而是提示词、预算控制和任务设计都要一起调整。
整体来看,Opus 4.7 很可能是 Anthropic 朝着实用型 Agent 模型迈出的关键一步。