GPT-5.4 来了：新增极限推理模式，长期任务能力显著提升，可能有“永久记忆”

技术人生黄勇

发布于 2026-03-11 17:11:35

1000

文章被收录于专栏：技术人生黄勇技术人生黄勇

5日，OpenAI 官宣了最新的模型 GPT-5.4：

今天，我们在 ChatGPT（作为 GPT-5.4 Thinking）、API 和 Codex 中发布 GPT-5.4。这是我们用于专业工作的最强大、最高效的前沿模型。

我们还在 ChatGPT 和 API 中发布 GPT-5.4 Pro，适用于需要在复杂任务上获得最高性能的用户。

GPT-5.4 是最新的前沿模型，它将我们在推理、编码和智能体工作流方面的最新进展整合在一起。

它融合了 GPT-5.3-Codex 业界领先的编码能力，同时改进了模型在工具、软件环境以及涉及电子表格、演示文稿和文档的专业任务中的工作方式。

结果是一个能够准确、有效、高效地完成复杂实际工作的模型——以更少的来回沟通交付您所要求的内容。

在 ChatGPT 中

在 ChatGPT 中，GPT-5.4 Thinking 现在可以提供其思考的前置计划，因此您可以在它工作时在响应中途调整方向，并在无需额外回合的情况下获得更符合您需求的最终输出。GPT-5.4 Thinking 还改进了深度网络研究，特别是对于高度特定的查询，同时更好地维护需要更长思考的问题的上下文。这些改进共同意味着更高质量的答案，更快地到达，并与手头的任务保持相关。

在 Codex 和 API 中

在 Codex 和 API 中，GPT-5.4 是我们发布的第一个具有原生、最先进的计算机使用能力的通用模型，使智能体能够操作计算机并跨应用程序执行复杂的工作流。

它支持高达 100 万个 token 的上下文，允许智能体在很长时间跨度内规划、执行和验证任务。GPT-5.4 还通过工具搜索改进了模型在大型工具和连接器生态系统中的工作方式，帮助智能体在不牺牲智能的情况下更高效地找到和使用正确的工具。

最后，GPT-5.4 是我们迄今为止最高效的推理模型，与 GPT-5.2 相比，使用明显更少的 token 来解决问题——转化为减少的 token 使用和更快的速度。

结合通用推理、编码和专业知识工作的进步，GPT-5.4 在 ChatGPT、API 和 Codex 中实现了更可靠的智能体、更快的开发人员工作流和更高质量的输出。

性能对比表

评估指标	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval（获胜或平局）	83.0%	70.9%	70.9%
SWE-Bench Pro（公开）	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*此前报告为 64.7%。GPT-5.3-Codex 通过新引入的保留原始图像分辨率的 API 参数达到 74.0%。

知识工作

在 GPT-5.2 通用推理能力的基础上，GPT-5.4 在对专业人士重要的实际任务上提供更一致、更完善的结果。

在 GDPval 中，该测试评估智能体在 44 个职业中产生明确规定的知识工作的能力，GPT-5.4 达到了新的最高水平，在 83.0% 的比较中与行业专业人士持平或超过他们，而 GPT-5.2 为 70.9%。

在 GDPval 中，模型尝试完成跨越美国 GDP 前 9 大行业的 44 个职业的明确规定的知识工作。任务要求实际工作产品，如销售演示文稿、会计电子表格、急诊排班表、制造业图表或短视频。GPT-5.4 的推理努力设置为 xhigh，而 GPT-5.2 为 heavy（在 ChatGPT 中略低的级别）。

我们特别关注提高 GPT-5.4 创建和编辑电子表格、演示文稿和文档的能力。在一组初级投资银行分析师可能执行的电子表格建模任务的内部基准测试中，GPT-5.4 达到 87.3% 的平均分数，而 GPT-5.2 为 68.4%。

在一组演示文稿评估提示中，人类评估者在 68.0% 的比较中更偏好 GPT-5.4 的演示文稿，原因是更强的美学效果、更多的视觉多样性和更有效的图像生成使用。

为了使 GPT-5.4 在实际工作中表现更好，我们继续在减少幻觉和错误方面取得进展。GPT-5.4 是我们迄今为止最真实的模型：在一组用户标记事实错误的去标识化提示中，相对于 GPT-5.2，GPT-5.4 的单个声明错误率降低 33%，其完整响应包含任何错误的概率降低 18%。

计算机使用和视觉

GPT-5.4 是我们第一个具有原生计算机使用能力的通用模型，标志着开发人员和智能体的重大进步。它是目前可供开发人员构建在网站和软件系统上完成实际任务的智能体的最佳模型。

我们设计 GPT-5.4 在广泛的计算机使用工作负载中表现出色。它擅长通过 Playwright 等库编写代码来操作计算机，以及根据截图发出鼠标和键盘命令。

它的行为可以通过开发人员消息进行引导，这意味着开发人员可以调整行为以适应特定用例。开发人员甚至可以通过指定自定义确认策略来配置模型的安全行为以适应不同级别的风险承受能力。

模型的性能和灵活性反映在测试不同设置下计算机使用的基准测试中。在 OSWorld-Verified 中，该测试测量模型通过截图和键盘/鼠标操作导航桌面环境的能力，GPT-5.4 达到了 75.0% 的最先进成功率，远远超过 GPT-5.2 的 47.3%，并超过了 72.4% 的人类表现。1

在 WebArena-Verified 中，该测试浏览器使用，GPT-5.4 在同时使用 DOM 和截图驱动交互时达到领先的 67.3% 成功率，而 GPT-5.2 为 65.4%。

在 Online-Mind2Web 中，该测试也测试浏览器使用，GPT-5.4 仅使用基于截图的观察就达到了 92.8% 的成功率，改进了 ChatGPT Atlas 的智能体模式，后者达到 70.9% 的成功率。

工具屈服是指助手屈服以等待工具响应。如果并行调用 3 个工具，然后再并行调用 3 个工具，那么屈服次数将是 2。工具屈服比工具调用更能代表延迟，因为它们反映了并行化的好处。

GPT-5.4 改进的计算机使用建立在模型改进的通用视觉感知能力之上。在 MMMU-Pro 中，这是模型视觉理解和推理的测试，GPT-5.4 在不使用工具的情况下达到 81.2% 的成功率，改进了 GPT-5.2 的 79.5%。改进的视觉感知也转化为更好的文档解析能力。

在 OmniDocBench 中，没有推理能力的 GPT-5.4 达到 0.109 的平均错误（通过模型预测和真实值之间的归一化编辑距离测量），从 GPT-5.2 的 0.140 改进。

MMMUPro 在推理努力设置为 xhigh 的情况下运行。OmniDocBench 在推理努力设置为 none 的情况下运行，以反映低成本、低延迟的性能。

我们还在改进密集、高分辨率图像的视觉理解，其中完整保真度很重要。从 GPT-5.4 开始，我们引入了原始图像输入细节级别，支持高达 1024 万总像素或 6000 像素最大维度的完整保真感知，以较低者为准；高图像输入细节级别现在支持高达 256 万总像素或 2048 像素最大维度。

在与 API 用户的早期测试中，我们观察到使用原始或高细节时在定位能力、图像理解和点击准确性方面有显著提升。

编码

GPT-5.4 将 GPT-5.3-Codex 的编码优势与领先的知识工作和计算机使用能力结合在一起，这在长时间运行的任务中最为重要，在这些任务中，模型可以使用工具、迭代，并在较少手动干预的情况下进一步推进工作。

它在 SWE-Bench Pro 上与 GPT-5.3-Codex 持平或超过，同时在推理努力中具有更低的延迟。

我们通过查看模型的生产行为并离线模拟来估计延迟。延迟估计考虑了工具调用持续时间（代码执行时间）、采样 token 和输入 token。

实际延迟可能会有很大差异，并且取决于我们模拟中未捕获的许多因素。推理努力从 none 到 xhigh 进行了扫描。

当打开时，Codex 中的 /fast 模式使用 GPT-5.4 提供高达 1.5 倍更快的 token 速度。它是相同的模型和相同的智能，只是更快。

这意味着用户可以在保持流程的同时完成编码任务、迭代和调试。开发人员可以通过使用优先级处理在 API 中以相同的快速速度访问 GPT-5.4。

在评估和内部测试中，我们发现 GPT-5.4 擅长复杂的前端任务，与我们之前发布的任何模型相比，具有明显更美观和更实用的结果。

为了演示模型改进的计算机使用和编码能力协同工作，我们还发布了一个名为"Playwright（交互式）"的实验性 Codex 技能。这允许 Codex 可视化调试 Web 和 Electron 应用程序；它甚至可以在构建应用程序时用来测试它正在构建的应用程序。

工具使用

使用 GPT-5.4，我们显著改进了模型与外部工具的工作方式。智能体现在可以跨更大的工具生态系统操作，更可靠地选择正确的工具，并以更低的成本和延迟完成多步骤工作流。

以前，当给模型工具时，所有工具定义都预先包含在提示中。对于有许多工具的系统，这可能会为每个请求增加数千甚至数万个 token，增加成本，减慢响应速度，并用模型可能永远不会使用的信息挤占上下文。

通过工具搜索，GPT-5.4 取而代之的是接收可用工具的轻量级列表以及工具搜索功能。当模型需要使用工具时，它可以查找该工具的定义并在那时将其附加到对话中。

这种方法显著减少了工具密集型工作流所需的 token 数量，并保留了缓存，使请求更快、更便宜。它还使智能体能够可靠地与更大的工具生态系统一起工作。对于可能包含数万 token 工具定义的 MCP 服务器，效率提升可能是巨大的。

为了演示效率提升，我们在两种模式下评估了 Scale 的 MCP Atlas 基准测试中的 250 个任务，并启用了所有 36 个 MCP 服务器：（1）在模型上下文中直接暴露每个 MCP 函数，以及（2）将所有 MCP 服务器放在工具搜索后面。工具搜索配置在实现相同准确性的同时将总 token 使用量减少了 47%。

示例 token 计数来自对 MCP-Atlas 公开数据集中 250 个任务的平均。

GPT-5.4 还改进了工具调用，在推理期间决定何时以及如何使用工具时更加准确和高效，特别是在 API 中。

与 GPT-5.2 相比，它在 Toolathlon 上以更少的回合实现了更高的准确性，该基准测试测试 AI 智能体如何使用实际工具和 API 完成多步骤任务。

例如，智能体需要阅读电子邮件、提取作业附件、上传它们、评分并在电子表格中记录结果。

对于偏好无推理努力的延迟敏感用例，GPT-5.4 进一步改进了其前身。

在 τ2-bench 中，模型必须使用工具完成客户服务任务，其中可能有一个模拟用户可以与世界状态进行通信和采取行动。推理努力设置为 None。

GPT-5.4 更擅长智能体网络搜索。在 BrowseComp 中，这是对 AI 智能体如何持续浏览网络以找到难以定位的信息的测量，GPT-5.4 比 GPT-5.2 跃升了 17%绝对值，GPT-5.4 Pro 设定了 89.3% 的新最高水平。

在实践中，这意味着 GPT-5.4 Thinking 更擅长回答需要从网络上许多来源汇集信息的问题。它可以在多个回合中更持续地搜索以识别最相关的来源，特别是对于"大海捞针"问题，并将它们综合成清晰、推理良好的答案。

在 BrowseComp 中，我们使用了一个搜索阻止列表，从评估中排除包含基准答案的网站，以防止污染并确保公平的性能测量。

GPT-5.4 的测量日期晚于 GPT-5.2，因此分数反映了模型、我们的搜索系统和互联网状态的变化。GPT-5.4 使用更长、更新的阻止列表进行测试。模型使用 ChatGPT 搜索工具，这可能与 API 搜索有细微差异。

可引导性

与 Codex 在开始工作时概述其方法类似，ChatGPT 中的 GPT-5.4 Thinking 现在将为更长、更复杂的查询在开头概述其工作。您还可以在响应中途添加指令或调整其方向。

这使得引导模型获得您想要的确切结果更容易，而无需重新开始或需要多个额外回合。此功能现已在 chatgpt.com 和 Android 应用程序上可用，很快将在 iOS 应用程序上推出。

模型还可以在困难任务上思考更长时间，同时保持对对话中更早步骤的更强意识。这允许它处理更长的工作流和更复杂的提示，同时保持答案连贯和相关。

安全

在最近几个月，我们在准备部署 GPT-5.4 的同时，继续改进我们随 GPT-5.3-Codex 引入的安全措施。

与 GPT-5.3-Codex 类似，我们在我们的准备框架中将 GPT-5.4 视为高网络能力，并且我们按照系统卡片中记录的相应保护措施进行部署。

这些包括扩展的网络安全堆栈，包括监控系统、可信访问控制，以及为零数据保留（ZDR）表面上的客户提供针对更高风险请求的异步阻止，同时继续投资于更广泛的安全生态系统。

由于网络安全能力本质上是双重用途的，我们在继续校准我们的政策和分类器的同时，对部署保持谨慎态度。对于 ZDR 表面上的某些客户，请求级阻止仍然是我们网络风险缓解堆栈的一部分；由于分类器仍在改进，随着我们继续完善这些安全措施，可能会发生一些误报。

这些更新旨在改进安全措施在实践中的运作方式，包括减少不必要的拒绝和过于谨慎的响应，同时保留针对滥用的强大保护。

我们继续在思维链（CoT）可监控性方面进行安全研究，以更好地理解模型如何推理并帮助检测潜在的不当行为。作为这项工作的一部分，我们引入了一个新的开源评估，CoT 可控性，测量模型是否可以故意混淆其推理以逃避监控。

我们发现 GPT-5.4 Thinking 控制其 CoT 的能力很低，这对安全来说是一个积极的属性，表明模型缺乏隐藏其推理的能力，并且 CoT 监控仍然是一个有效的安全工具。

可用性和定价

GPT-5.4 今天在 ChatGPT 和 Codex 中逐步推出。

在 API 中，GPT-5.4 现在以 gpt-5.4 提供。GPT-5.4 Pro 也在 API 中以 gpt-5.4-pro 提供，供需要在最复杂任务上获得最高性能的开发人员使用。

在 ChatGPT 中，GPT-5.4 Thinking 从今天开始向 ChatGPT Plus、Team 和 Pro 用户提供，取代 GPT-5.2 Thinking。

GPT-5.2 Thinking 将在模型选择器中的遗留模型部分为付费用户保留三个月，之后将于 2026 年 6 月 5 日退役。

企业和教育计划的用户可以通过管理员设置启用早期访问。GPT-5.4 Pro 向 Pro 和企业计划提供。ChatGPT 中 GPT-5.4 Thinking 的上下文窗口与 GPT-5.2 Thinking 保持不变。

GPT-5.4 是我们第一个结合了 GPT-5.3-codex 前沿编码能力的主线推理模型，并且正在 ChatGPT、API 和 Codex 中推出。

我们称之为 GPT-5.4 以反映这一飞跃，并简化使用 Codex 时模型之间的选择。随着时间的推移，您可以预期我们的即时模型和思维模型将以不同的速度发展。

Codex 中的 GPT-5.4 包括对 100 万上下文窗口的实验性支持。开发人员可以通过配置 model_context_window 和 model_auto_compact_token_limit 来尝试这一点。超过标准 272K 上下文窗口的请求按正常速率的 2 倍计入使用限制。

在 API 中，GPT-5.4 的每 token 定价高于 GPT-5.2，以反映其改进的能力，而其更高的 token 效率有助于减少许多任务所需的总 token 数量。批量和灵活定价以标准 API 速率的一半提供，而优先级处理以标准 API 速率的两倍提供。

API 模型定价

模型	输入价格	缓存输入价格	输出价格
gpt-5.2	$1.75 / M tokens	$0.175 / M tokens	$14 / M tokens
gpt-5.4	$2.50 / M tokens	$0.25 / M tokens	$15 / M tokens
gpt-5.2-pro	$21 / M tokens	-	$168 / M tokens
gpt-5.4-pro	$30 / M tokens	-	$180 / M tokens

评估结果

专业评估

评估	GPT-5.4	GPT-5.4 Pro	GPT-5.3-Codex	GPT-5.2	GPT-5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
投资银行建模任务（内部）	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

编码评估

评估	GPT-5.4	GPT-5.4 Pro	GPT-5.3-Codex	GPT-5.2	GPT-5.2 Pro
SWE-Bench Pro（公开）	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.3%	62.2%	—

计算机使用和视觉评估

评估	GPT-5.4	GPT-5.4 Pro	GPT-5.3-Codex	GPT-5.2	GPT-5.2 Pro
OSWorld-Verified	75.0%	—	74.0%	47.3%	—
MMMU Pro（无工具）	81.2%	—	—	79.5%	—
MMMU Pro（有工具）	82.1%	—	—	80.4%	—

工具使用评估

评估	GPT-5.4	GPT-5.4 Pro	GPT-5.3-Codex	GPT-5.2	GPT-5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

学术评估

评估	GPT-5.4	GPT-5.4 Pro	GPT-5.3-Codex	GPT-5.2	GPT-5.2 Pro
前沿科学研究	33.0%	36.7%	—	25.2%	—
FrontierMath Tier 1–3	47.6%	50.0%	—	40.7%	—
FrontierMath Tier 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
Humanity's Last Exam（无工具）	39.8%	42.7%	—	34.5%	36.6%
Humanity's Last Exam（有工具）	52.1%	58.7%	—	45.5%	50.0%

长上下文评估

评估	GPT-5.4	GPT-5.4 Pro	GPT-5.3-Codex	GPT-5.2	GPT-5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
Graphwalks BFS 256K–1M	21.4%	—	—	—	—
Graphwalks parents 0–128K（准确率）	89.8%	—	—	89.0%	—
Graphwalks parents 256K–1M（准确率）	32.4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-needle 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-needle 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-needle 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-needle 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-needle 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36.6%	—	—	—	—

抽象推理评估

评估	GPT-5.4	GPT-5.4 Pro	GPT-5.3-Codex	GPT-5.2	GPT-5.2 Pro
ARC-AGI-1（已验证）	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2（已验证）	73.3%	83.3%	—	52.9%	54.2%（高）

无推理评估

评估	GPT-5.4（none）	GPT-5.2（none）	GPT-4.1
OmniDocBench（归一化编辑距离）	0.109	0.140	—
Tau2-bench Telecom	64.3%	57.2%	43.6%

除另有说明外，评估在推理努力设置为 xhigh 的情况下运行。

基准测试在研究环境中进行，在某些情况下可能与生产 ChatGPT 提供略有不同的输出。

OpenAI的这次更新，一是国内外的模型（Gemini、Claude、GLM、DeepSeek等等）都在更新，逼得它也不得不更新，新模型的长期任务执行能力显著提升。

二是 GPT-5.4 相对于之前的模型系列，价格贵了许多，输入价格涨43%，输出涨7%。

三是坊间传言，GPT-5.4 具有“永久记忆”和200万Token的上下文（官宣是100万）。