
昨晚 10 点多,Claude 官方账号突然甩了一条新推。
Introducing Claude Opus 4.7, our most capable Opus model yet。
配一张 benchmark 对比表,没有直播,没有发布会,Anthropic 还是那套风格。

我盯着那张表看了不止一会儿。Opus 4.7 那列确实全面碾压 Opus 4.6,SWE-bench Pro 从 53% 提到 64%,SWE-bench Verified 从 80% 提到 87%,Agent 式金融分析直接刷出第三方评测的 state-of-the-art。
但我多看了两眼,发现最右边还有一列。
叫 Mythos Preview。
每一项数值都比 Opus 4.7 更高。SWE-bench Pro 77.8%,SWE-bench Verified 93.9%,Terminal-Bench 82%,视觉推理 93.2%。几乎把 Opus 4.7 再踩下去一整档。
这才是今天有意思的地方。Anthropic 手里其实还捂着一个更强的模型,只是出于网络安全顾虑,暂时没放出来。Opus 4.7 某种意义上就是那个版本做了安全降级之后的产物,训练时专门削弱了网络攻击相关的能力,再配一层自动识别高风险用途的防护。
想做渗透测试、漏洞研究的安全研究员,得单独申请一个叫 Cyber Verification Program 的东西,合规使用。
回到 Opus 4.7 本身。
这次最硬的一块是自主编程能力。以前那些你得盯着 Claude 一步一步走的复杂任务,现在可以放心甩给它独立跑完,它会在汇报之前自己先验证一遍输出。
推上有个叫 SuhailKakar 的哥们发了条帖子,一天之内 5000 多赞。他让 Opus 4.7 重构一个大型代码库,跑了 68 分钟,烧了百万 token,改了 28 个文件,+49474 行 -724 行,一路风风火火干完。然后 app 彻底崩了。

他的原话是,nothing worked. app completely broken. but god it was beautiful.
这个梗某种程度上挺能代表 Opus 4.7 的性格。它能独立跑完一场远程马拉松,结果可能对可能不对,但那个姿态已经是 Agent 的姿态了。

官方放出来的 effort level 曲线是这样的。high 档位上 Opus 4.7 的 Agent 分数大概 65,xhigh 跳到 71,max 冲到 74。Opus 4.6 的 max 才到 61,差出一整个台阶。Claude Code 所有套餐的默认推理力度这次也从 high 直接调到了 xhigh。
第二块是视觉。
Opus 4.7 这次能吃下长边最大 2576 像素的图,大约 375 万像素,是之前 Claude 模型的三倍多。这个升级不是说它能看更清晰的猫了,而是你以前丢一张密集的界面截图进去,Claude 会先把图压缩,压缩过程里那些小字、按钮、表格很容易糊掉;现在原图直接扔进去,它能像你一样逐像素地看。
做 Computer Use 型 Agent 的、做金融图表解析的、做 UI 自动化的,都是一步到位的提升。
第三块是 Claude Code 同步升级。
新加了个 /ultrareview 命令,专门做深度代码审查,自动找 bug 和设计问题,Pro 和 Max 用户每个月能免费试三次。另外 auto 模式,也就是 Claude 自主决策、连续执行那一套,这次对 Max 用户全面开放。以前这是个只有少数账号能摸到的玩法,现在 Max 会员直接能开,等于 Anthropic 把自主 Agent 体验下放了一档。
顺带加了一个新的推理档位叫 xhigh,介于 high 和 max 之间,让你在速度和脑力之间多一档选择。
不过有一个小坑得提前说。
Opus 4.7 换了新的 tokenizer,同样的输入,token 消耗大概是原来的 1.0 到 1.35 倍,具体看内容类型。加上它在高档位下思考得更深,输出 token 也变长。两项叠起来,定价虽然没变(输入每百万 token 5 美元,输出 25 美元),但实际账单可能会微涨。
Anthropic 自己都建议,别上来直接切,拿自己真实的流量先跑一遍,算清楚账再决定是否迁移。
我发这篇的时候,Cursor 已经把 Opus 4.7 上线了还打五折,GitHub Copilot 宣布灰度发布,推上关于它的讨论热到一个离谱。

有人发了条推叹气,太快了,一切都来得太快了。
但更值得琢磨的,还是那张对比表的最右一列。
那一列说明 Anthropic 手里真正的牌还没打完。他们选择先发一个安全降级版,把最强的那个继续捂在手里。
在这轮模型厂的军备竞赛里,主动藏牌本身就是一种信号。
最响的那张牌,有时候是那张没翻开的。
我是洞见,下次见。