首页
学习
活动
专区
圈层
工具
发布

GPT-5.4 发布:一个有人味、能交付工作的AI 来了

早上七点醒来,我拿起手机,

突然发现 GPT-5.4 发布了。

那一瞬间,整个人一下子就兴奋了。

因为我最近用GPT-5.3 Codex做了很多事

所以我特别期待5.4的更新

再一看窗外,今天上海居然终于放晴了。

很妙。

像是一个很适合迎接新模型的早晨。

于是我直接从床上跳下来,开始做两件事

先读官方文档,再跑实测能力。

跑了几个实测案例之后,

一句话总结:

GPT-5.4 把编程、推理、computer use、工具调用和 1M 上下文,尽量收拢进了同一个模型。

更重要的是,整合之后,几个关键能力依然都很强,没有明显短板。

OpenAI给它的定位很明确:面向专业工作的主力模型,同时覆盖 ChatGPT、API 和 Codex。

如果只用一句话,我对 GPT-5.4 的实测体感是:

它更接近一个有人味、也更能进入真实工作流的 AI。

为什么我会这么说?

在我看来,一个能力足够强的 Agent 基座模型,通常至少要同时具备四种能力:

世界知识、推理能力、代码能力、多模态理解。

过去几十年的互联网发展,底层几乎都建立在代码之上。

很多软件、网页、工具,本质都绕不开代码。

所以很多时候,Agent 能不能真正跑起来,背后还是要看它的coding+推理能力够不够强。

而 GPT-5.4 这次让我兴奋的地方就在这里。

它没有只朝某一个单点猛冲,给我的感觉更像是在把几条关键能力一起往前推。

比如,OpenAI 这次重点强调了它在文档、表格、演示稿、工具调用和长流程任务上的能力。

官方原话也很直接:GPT-5.4 更擅长把复杂真实工作做得更准确、更有效率,减少来回拉扯。

我自己早上先跑的一个测试,其实挺神经的:

以你对我的了解,我有哪些缺点,不要谄媚我。

结果它给到我的结构化分析,完整度和细节都挺高。

这里我就不展开我的缺点了,有兴趣的朋友可以自己拿这句 prompt 去试试,顺便测一下 5.4 的准确性和幻觉率。

我第二个case,我开始测试他的PPT能力

我为什么会拿 PPT 来测?

因为这次 GPT-5.4 的一个明确信号,就是它在强化可交付的办公产物。

我的提示词非常简单,就是阅读GPT-5.4官方文档,之后做PPT

阅读这个链接:https://openai.com/index/introducing-gpt-5-4/,帮我做一份15页介绍GPT5.4的PPT,风格要极其美观,不要节约token。

我分别在ChatGPT和codex客户端用5.4跑了这个案例

(ChatGPT网页版)

(codex客户端)

先说结论:

这是codex跑出来的案例,比之前的审美提升很多

另外PPT每一页内容都表明了具体的出处

准确性更高,幻觉率更低

最主要的是PPT完全可以编辑,每个细节都可以改

这就意味着,职场打工人们可以继续编辑、继续修改,直到真正交付

看我下图具体标注

另外在测试的过程中,我发现有几页乱码:

让codex修改,发现它可以操控我的电脑修改

它先用我电脑的keynote转换成pdf,进行渲染核对

这是它修改好的

所以从这个小的case,它是一个可以进入真实工作流的 AI

由于我时间有限,今天没来得及测更多案例,所以最后把这次升级里我最关注的几件事,也顺手汇总一下。

第一,专业工作能力更强了。

OpenAI 重点提到的场景包括研究、文档、表格、演示稿、工具调用和长流程任务。GPT-5.4 很明显在往更真实的工作场景里走。

第二,支持原生 computer use。

GPT-5.4 已经可以在软件和网页环境里完成更复杂的操作流程。对 AI 来说,这一步非常关键,因为它离真正替你做事更近了。

第三,支持 1M 上下文。

这个更新很实在。

长文档、复杂项目、多步骤任务,都能更从容地处理。

第四,办公产物能力提升明显。

OpenAI 这次专门强调了 spreadsheets、documents、presentations,还同步发布了 ChatGPT for Excel。这个信号很直接:他们在继续强化各种办公场景里的交付能力。发布页给出的结果里,GPT-5.4 在 GDPval 上达到 83.0% 的 wins or ties,在内部表格建模任务中平均得分 87.3%,在人类评审的演示稿对比里也有 68.0% 的偏好率。

第五,事实性更稳了。

官网披露,针对一组曾被用户标记有事实问题的提示词,GPT-5.4 的单条事实陈述出错概率较 GPT-5.2 下降了 33%,完整回答中出现任意错误的概率下降了 18%。

所以我觉得,这次 GPT-5.4 发布最值得关注的,不在于模型又升级了,而在于大模型正在越来越清楚地走向一件事:

从回答问题,走向完成工作。

谁能做出更靠谱的文档,

谁能搭出更好用的表格,

谁能产出更像样的 PPT,

谁能在真实软件和网页里完成一整段任务,

谁就更接近下一阶段真正有价值的 AI。

从这个角度看,GPT-5.4 今天的更新很直接:

它已经不太像一个只会回答问题的模型了,它开始更像一个能进工作流、能做交付的 AI.

我自己的判断是,接下来我们会看到越来越多 Agent 形态的产品和工作流出现。

所以在当下这个阶段,如果你真的想理解 AI 往哪里走,我还是很推荐多用一用 Codex 和 Claude Code 这类工具。

因为很多时候,光看模型参数和跑分,感受并不深。

只有当你真的让它去写代码、调工具、改文件、跑流程、做交付,

你才会更清楚:一个模型离能真正干活还有多远。

另外,我最近也会把Openclaw龙虾接入 GPT-5.4,实际测试一下效果。

跑完之后,如果确实有意思,我再和大家同步。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2LqYPQpp3L8rA4rg8f3oxxw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券