早上七点醒来,我拿起手机,
突然发现 GPT-5.4 发布了。
那一瞬间,整个人一下子就兴奋了。
因为我最近用GPT-5.3 Codex做了很多事
所以我特别期待5.4的更新
再一看窗外,今天上海居然终于放晴了。
很妙。
像是一个很适合迎接新模型的早晨。
于是我直接从床上跳下来,开始做两件事
先读官方文档,再跑实测能力。
跑了几个实测案例之后,
一句话总结:
GPT-5.4 把编程、推理、computer use、工具调用和 1M 上下文,尽量收拢进了同一个模型。
更重要的是,整合之后,几个关键能力依然都很强,没有明显短板。
OpenAI给它的定位很明确:面向专业工作的主力模型,同时覆盖 ChatGPT、API 和 Codex。
如果只用一句话,我对 GPT-5.4 的实测体感是:
它更接近一个有人味、也更能进入真实工作流的 AI。
为什么我会这么说?
在我看来,一个能力足够强的 Agent 基座模型,通常至少要同时具备四种能力:
世界知识、推理能力、代码能力、多模态理解。
过去几十年的互联网发展,底层几乎都建立在代码之上。
很多软件、网页、工具,本质都绕不开代码。
所以很多时候,Agent 能不能真正跑起来,背后还是要看它的coding+推理能力够不够强。
而 GPT-5.4 这次让我兴奋的地方就在这里。
它没有只朝某一个单点猛冲,给我的感觉更像是在把几条关键能力一起往前推。
比如,OpenAI 这次重点强调了它在文档、表格、演示稿、工具调用和长流程任务上的能力。
官方原话也很直接:GPT-5.4 更擅长把复杂真实工作做得更准确、更有效率,减少来回拉扯。
我自己早上先跑的一个测试,其实挺神经的:
以你对我的了解,我有哪些缺点,不要谄媚我。
结果它给到我的结构化分析,完整度和细节都挺高。
这里我就不展开我的缺点了,有兴趣的朋友可以自己拿这句 prompt 去试试,顺便测一下 5.4 的准确性和幻觉率。
我第二个case,我开始测试他的PPT能力
我为什么会拿 PPT 来测?
因为这次 GPT-5.4 的一个明确信号,就是它在强化可交付的办公产物。
我的提示词非常简单,就是阅读GPT-5.4官方文档,之后做PPT
阅读这个链接:https://openai.com/index/introducing-gpt-5-4/,帮我做一份15页介绍GPT5.4的PPT,风格要极其美观,不要节约token。
我分别在ChatGPT和codex客户端用5.4跑了这个案例
(ChatGPT网页版)
(codex客户端)
先说结论:
这是codex跑出来的案例,比之前的审美提升很多
另外PPT每一页内容都表明了具体的出处
准确性更高,幻觉率更低
最主要的是PPT完全可以编辑,每个细节都可以改
这就意味着,职场打工人们可以继续编辑、继续修改,直到真正交付
看我下图具体标注
另外在测试的过程中,我发现有几页乱码:
让codex修改,发现它可以操控我的电脑修改
它先用我电脑的keynote转换成pdf,进行渲染核对
这是它修改好的
所以从这个小的case,它是一个可以进入真实工作流的 AI
由于我时间有限,今天没来得及测更多案例,所以最后把这次升级里我最关注的几件事,也顺手汇总一下。
第一,专业工作能力更强了。
OpenAI 重点提到的场景包括研究、文档、表格、演示稿、工具调用和长流程任务。GPT-5.4 很明显在往更真实的工作场景里走。
第二,支持原生 computer use。
GPT-5.4 已经可以在软件和网页环境里完成更复杂的操作流程。对 AI 来说,这一步非常关键,因为它离真正替你做事更近了。
第三,支持 1M 上下文。
这个更新很实在。
长文档、复杂项目、多步骤任务,都能更从容地处理。
第四,办公产物能力提升明显。
OpenAI 这次专门强调了 spreadsheets、documents、presentations,还同步发布了 ChatGPT for Excel。这个信号很直接:他们在继续强化各种办公场景里的交付能力。发布页给出的结果里,GPT-5.4 在 GDPval 上达到 83.0% 的 wins or ties,在内部表格建模任务中平均得分 87.3%,在人类评审的演示稿对比里也有 68.0% 的偏好率。
第五,事实性更稳了。
官网披露,针对一组曾被用户标记有事实问题的提示词,GPT-5.4 的单条事实陈述出错概率较 GPT-5.2 下降了 33%,完整回答中出现任意错误的概率下降了 18%。
所以我觉得,这次 GPT-5.4 发布最值得关注的,不在于模型又升级了,而在于大模型正在越来越清楚地走向一件事:
从回答问题,走向完成工作。
谁能做出更靠谱的文档,
谁能搭出更好用的表格,
谁能产出更像样的 PPT,
谁能在真实软件和网页里完成一整段任务,
谁就更接近下一阶段真正有价值的 AI。
从这个角度看,GPT-5.4 今天的更新很直接:
它已经不太像一个只会回答问题的模型了,它开始更像一个能进工作流、能做交付的 AI.
我自己的判断是,接下来我们会看到越来越多 Agent 形态的产品和工作流出现。
所以在当下这个阶段,如果你真的想理解 AI 往哪里走,我还是很推荐多用一用 Codex 和 Claude Code 这类工具。
因为很多时候,光看模型参数和跑分,感受并不深。
只有当你真的让它去写代码、调工具、改文件、跑流程、做交付,
你才会更清楚:一个模型离能真正干活还有多远。
另外,我最近也会把Openclaw龙虾接入 GPT-5.4,实际测试一下效果。
跑完之后,如果确实有意思,我再和大家同步。