文章/答案/技术大牛

发布

GPT-5.5 发布！OpenAI已经不造天才了

文章来源：企鹅号 - 夕小瑶科技说

果不其然，前两天 GPT-5.5 的各种泄露、模型下拉菜单露出，不是空穴来风。

刚刚，OpenAI 正式发布 GPT-5.5，上下文 400K 到 1M token。ChatGPT、Codex 同步上线，但 GPT-5.5 Pro 先只给 Pro、Business、Enterprise 用户使用。

这次发布会的主题是：「A new class of intelligence for real work」。

为真实工作而生的一类新智能。

官方强调的四个能力方向：

Agentic Coding：能自主完成多步编程任务，不需要一步步指导。

Computer Use：看屏幕、点击、打字、切窗口、跨工具导航。

知识工作：分析数据、写文档、创建表格。

科研：GPT-5.5在更少的output tokens下实现相同效果。

先看OpenAI自己放出来的成绩单：

如果只跟 Claude Opus 4.7 比，GPT-5.5 直接碾过去了。

但 Anthropic 手里还有一个天才，叫 Claude Mythos。把 Claude Mythos 也拉进来一起看，8项核心benchmark里，GPT-5.5只在Terminal-Bench 2.0（考验长流程终端操作能力）上赢了0.7个点。其余7项，Mythos全部领先。

然后看价格：

Mythos Preview 的价格是 25 美元 / M 输入 token，125 美元 / M 输出 token。

GPT-5.5 ：5 美元 / M 输入 token，30 美元 / M 输出 token。

GPT-5.5的价格只有Mythos的五分之一到四分之一。

如果 Mythos 在跑分上是那种全面打穿式优势，那这个溢价当然讲得通。天才逻辑允许极高溢价，因为你买的是「别人做不到的东西」。

标准件逻辑不一样。别差太多，别贵离谱就行，最好能直接接进现有流程。

过去两年，OpenAI 最爱卖的，就是天才故事。但现在，Anthropic在卖天才，OpenAI开始卖标准件了。

所以，你会发现这次OpenAI主推的benchmark全变了。OpenAI，主动贴近了真实办公场景的效率。

GDPval

对标的是「高经济价值的知识工作」，也就是你在公司里，坐在电脑前，一天到底能把多少活干完。

GPT-5.5 拿到 84.9%，领先 Claude Opus 4.7 的 80.3%。

OSWorld-Verified

这个评测更接近真实电脑操作，模型要看界面、识别按钮、切窗口、调用工具、走多步流程，把一个具体任务做完。

比之GPT-5.4，GPT-5.5 得分大幅提升，拿到 78.7%，再次战胜了 Claude Opus 4.7 的 78.0%。

Tau2-bench Telecom

它测的是电信场景里的工具使用和业务流程推进。模型要理解用户需求，查状态，调用工具，按业务规则一步步处理，最后给出正确结果。

GPT-5.5 得分 98.0%。OpenAI 还特地写了 without prompt tuning，意思没为这个榜单特调过 prompt，接进你公司的流程里，拿到的就是这个水平。

一个是复杂软件界面和长流程操作，一个是专业业务流程里的工具使用，全是真实工作场景。

科研方向也有同样的趋势。

GeneBench

这是一项专注于遗传学和定量生物学多阶段科学数据分析的新评估，要求模型解决隐藏的混杂因素或质量控制失效等现实障碍，并正确实施和解释现代统计方法。

GPT-5.5 分更高，爬升速度也更快，而且是在更低 output tokens 下先把曲线拉起来的。GPT-5.5 到大约 2.46 万 output tokens 已经摸到 25%，GPT-5.4 到大约 3.65 万 output tokens 也只到 19%。

就是说在科研场景里，GPT-5.5 也在更省 token 的情况下，把有效输出抬得更快了。

从这个意义上说，GPT-5.5 这次最反差的地方，在于 OpenAI 已经不太需要它惊艳了。他们要的，是它准时交付。

OpenAI 明确说，GPT-5.5 在真实服务里的 per-token latency，和 GPT-5.4 持平。与此同时，在同类 Codex 任务里，它用的 token 还更少。

这句话比很多跑分都重要。

因为一个模型如果只是变聪明，但每次调用更慢、更贵、更不稳定，那它就很难进入真正的大规模业务流程。

我们可以为天才鼓掌，但每天跑流程的时候，大家更想要一台稳定机器。

OpenAI 官方给的内部案例，也全是这种味道。

财务团队用 Codex 审了 24771 份税表，处理 71637 页文件；Go-to-Market 团队用它整理周报，每周省 5 到 10 小时。

看上都很务实，没有 AGI 降临那么刺激。但这些东西，会真正出现在公司业务里。

顺便说一句，GPT-5.5 相比 GPT-5.4 也涨价了，刚好翻倍。

放在 Mythos 面前，放在 Codex 里面显得没那么贵。

发表于: 2026-04-242026-04-24 06:43:59
原文链接：https://page.om.qq.com/page/OFWytNzl7YTk7nFZSPzTknIg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

GPT-5.5 发布！OpenAI已经不造天才了

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐