文章/答案/技术大牛

发布

GPT-5.4 发布：一个有人味、能交付工作的AI 来了

文章来源：企鹅号 - 毅恒的小酒馆

早上七点醒来，我拿起手机，

突然发现 GPT-5.4 发布了。

那一瞬间，整个人一下子就兴奋了。

因为我最近用GPT-5.3 Codex做了很多事

所以我特别期待5.4的更新

再一看窗外，今天上海居然终于放晴了。

很妙。

像是一个很适合迎接新模型的早晨。

于是我直接从床上跳下来，开始做两件事

先读官方文档，再跑实测能力。

跑了几个实测案例之后，

一句话总结：

GPT-5.4 把编程、推理、computer use、工具调用和 1M 上下文，尽量收拢进了同一个模型。

更重要的是，整合之后，几个关键能力依然都很强，没有明显短板。

OpenAI给它的定位很明确：面向专业工作的主力模型，同时覆盖 ChatGPT、API 和 Codex。

如果只用一句话，我对 GPT-5.4 的实测体感是：

它更接近一个有人味、也更能进入真实工作流的 AI。

为什么我会这么说？

在我看来，一个能力足够强的 Agent 基座模型，通常至少要同时具备四种能力：

世界知识、推理能力、代码能力、多模态理解。

过去几十年的互联网发展，底层几乎都建立在代码之上。

很多软件、网页、工具，本质都绕不开代码。

所以很多时候，Agent 能不能真正跑起来，背后还是要看它的coding+推理能力够不够强。

而 GPT-5.4 这次让我兴奋的地方就在这里。

它没有只朝某一个单点猛冲，给我的感觉更像是在把几条关键能力一起往前推。

比如，OpenAI 这次重点强调了它在文档、表格、演示稿、工具调用和长流程任务上的能力。

官方原话也很直接：GPT-5.4 更擅长把复杂真实工作做得更准确、更有效率，减少来回拉扯。

我自己早上先跑的一个测试，其实挺神经的：

以你对我的了解，我有哪些缺点，不要谄媚我。

结果它给到我的结构化分析，完整度和细节都挺高。

这里我就不展开我的缺点了，有兴趣的朋友可以自己拿这句 prompt 去试试，顺便测一下 5.4 的准确性和幻觉率。

我第二个case，我开始测试他的PPT能力

我为什么会拿 PPT 来测？

因为这次 GPT-5.4 的一个明确信号，就是它在强化可交付的办公产物。

我的提示词非常简单，就是阅读GPT-5.4官方文档，之后做PPT

阅读这个链接：https://openai.com/index/introducing-gpt-5-4/，帮我做一份15页介绍GPT5.4的PPT，风格要极其美观，不要节约token。

我分别在ChatGPT和codex客户端用5.4跑了这个案例

（ChatGPT网页版）

（codex客户端）

先说结论：

这是codex跑出来的案例，比之前的审美提升很多

另外PPT每一页内容都表明了具体的出处

准确性更高，幻觉率更低

最主要的是PPT完全可以编辑，每个细节都可以改

这就意味着，职场打工人们可以继续编辑、继续修改，直到真正交付

看我下图具体标注

另外在测试的过程中，我发现有几页乱码：

让codex修改，发现它可以操控我的电脑修改

它先用我电脑的keynote转换成pdf,进行渲染核对

这是它修改好的

所以从这个小的case，它是一个可以进入真实工作流的 AI

由于我时间有限，今天没来得及测更多案例，所以最后把这次升级里我最关注的几件事，也顺手汇总一下。

第一，专业工作能力更强了。

OpenAI 重点提到的场景包括研究、文档、表格、演示稿、工具调用和长流程任务。GPT-5.4 很明显在往更真实的工作场景里走。

第二，支持原生 computer use。

GPT-5.4 已经可以在软件和网页环境里完成更复杂的操作流程。对 AI 来说，这一步非常关键，因为它离真正替你做事更近了。

第三，支持 1M 上下文。

这个更新很实在。

长文档、复杂项目、多步骤任务，都能更从容地处理。

第四，办公产物能力提升明显。

OpenAI 这次专门强调了 spreadsheets、documents、presentations，还同步发布了 ChatGPT for Excel。这个信号很直接：他们在继续强化各种办公场景里的交付能力。发布页给出的结果里，GPT-5.4 在 GDPval 上达到 83.0% 的 wins or ties，在内部表格建模任务中平均得分 87.3%，在人类评审的演示稿对比里也有 68.0% 的偏好率。

第五，事实性更稳了。

官网披露，针对一组曾被用户标记有事实问题的提示词，GPT-5.4 的单条事实陈述出错概率较 GPT-5.2 下降了 33%，完整回答中出现任意错误的概率下降了 18%。

所以我觉得，这次 GPT-5.4 发布最值得关注的，不在于模型又升级了，而在于大模型正在越来越清楚地走向一件事：

从回答问题，走向完成工作。

谁能做出更靠谱的文档，

谁能搭出更好用的表格，

谁能产出更像样的 PPT，

谁能在真实软件和网页里完成一整段任务，

谁就更接近下一阶段真正有价值的 AI。

从这个角度看，GPT-5.4 今天的更新很直接：

它已经不太像一个只会回答问题的模型了，它开始更像一个能进工作流、能做交付的 AI.

我自己的判断是，接下来我们会看到越来越多 Agent 形态的产品和工作流出现。

所以在当下这个阶段，如果你真的想理解 AI 往哪里走，我还是很推荐多用一用 Codex 和 Claude Code 这类工具。

因为很多时候，光看模型参数和跑分，感受并不深。

只有当你真的让它去写代码、调工具、改文件、跑流程、做交付，

你才会更清楚：一个模型离能真正干活还有多远。

另外，我最近也会把Openclaw龙虾接入 GPT-5.4，实际测试一下效果。

跑完之后，如果确实有意思，我再和大家同步。

发表于: 2026-03-062026-03-06 10:15:54
原文链接：https://page.om.qq.com/page/O2LqYPQpp3L8rA4rg8f3oxxw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

GPT-5.4 发布：一个有人味、能交付工作的AI 来了

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐