果不其然,前两天 GPT-5.5 的各种泄露、模型下拉菜单露出,不是空穴来风。
刚刚,OpenAI 正式发布 GPT-5.5,上下文 400K 到 1M token。ChatGPT、Codex 同步上线,但 GPT-5.5 Pro 先只给 Pro、Business、Enterprise 用户使用。
这次发布会的主题是:「A new class of intelligence for real work」。
为真实工作而生的一类新智能。
官方强调的四个能力方向:
Agentic Coding:能自主完成多步编程任务,不需要一步步指导。
Computer Use:看屏幕、点击、打字、切窗口、跨工具导航。
知识工作:分析数据、写文档、创建表格。
科研:GPT-5.5在更少的output tokens下实现相同效果。
先看OpenAI自己放出来的成绩单:
如果只跟 Claude Opus 4.7 比,GPT-5.5 直接碾过去了。
但 Anthropic 手里还有一个天才,叫 Claude Mythos。把 Claude Mythos 也拉进来一起看,8项核心benchmark里,GPT-5.5只在Terminal-Bench 2.0(考验长流程终端操作能力)上赢了0.7个点。其余7项,Mythos全部领先。
然后看价格:
Mythos Preview 的价格是 25 美元 / M 输入 token,125 美元 / M 输出 token。
GPT-5.5 :5 美元 / M 输入 token,30 美元 / M 输出 token。
GPT-5.5的价格只有Mythos的五分之一到四分之一。
如果 Mythos 在跑分上是那种全面打穿式优势,那这个溢价当然讲得通。天才逻辑允许极高溢价,因为你买的是「别人做不到的东西」。
标准件逻辑不一样。别差太多,别贵离谱就行,最好能直接接进现有流程。
过去两年,OpenAI 最爱卖的,就是天才故事。但现在,Anthropic在卖天才,OpenAI开始卖标准件了。
所以,你会发现这次OpenAI主推的benchmark全变了。OpenAI,主动贴近了真实办公场景的效率。
GDPval
对标的是「高经济价值的知识工作」,也就是你在公司里,坐在电脑前,一天到底能把多少活干完。
GPT-5.5 拿到 84.9%,领先 Claude Opus 4.7 的 80.3%。
OSWorld-Verified
这个评测更接近真实电脑操作,模型要看界面、识别按钮、切窗口、调用工具、走多步流程,把一个具体任务做完。
比之GPT-5.4,GPT-5.5 得分大幅提升,拿到 78.7%,再次战胜了 Claude Opus 4.7 的 78.0%。
Tau2-bench Telecom
它测的是电信场景里的工具使用和业务流程推进。模型要理解用户需求,查状态,调用工具,按业务规则一步步处理,最后给出正确结果。
GPT-5.5 得分 98.0%。OpenAI 还特地写了 without prompt tuning,意思没为这个榜单特调过 prompt,接进你公司的流程里,拿到的就是这个水平。
一个是复杂软件界面和长流程操作,一个是专业业务流程里的工具使用,全是真实工作场景。
科研方向也有同样的趋势。
GeneBench
这是一项专注于遗传学和定量生物学多阶段科学数据分析的新评估,要求模型解决隐藏的混杂因素或质量控制失效等现实障碍,并正确实施和解释现代统计方法。
GPT-5.5 分更高,爬升速度也更快,而且是在更低 output tokens 下先把曲线拉起来的。GPT-5.5 到大约 2.46 万 output tokens 已经摸到 25%,GPT-5.4 到大约 3.65 万 output tokens 也只到 19%。
就是说在科研场景里,GPT-5.5 也在更省 token 的情况下,把有效输出抬得更快了。
从这个意义上说,GPT-5.5 这次最反差的地方,在于 OpenAI 已经不太需要它惊艳了。他们要的,是它准时交付。
OpenAI 明确说,GPT-5.5 在真实服务里的 per-token latency,和 GPT-5.4 持平。与此同时,在同类 Codex 任务里,它用的 token 还更少。
这句话比很多跑分都重要。
因为一个模型如果只是变聪明,但每次调用更慢、更贵、更不稳定,那它就很难进入真正的大规模业务流程。
我们可以为天才鼓掌,但每天跑流程的时候,大家更想要一台稳定机器。
OpenAI 官方给的内部案例,也全是这种味道。
财务团队用 Codex 审了 24771 份税表,处理 71637 页文件;Go-to-Market 团队用它整理周报,每周省 5 到 10 小时。
看上都很务实,没有 AGI 降临那么刺激。但这些东西,会真正出现在公司业务里。
顺便说一句,GPT-5.5 相比 GPT-5.4 也涨价了,刚好翻倍。
放在 Mythos 面前,放在 Codex 里面显得没那么贵。