

OpenAI深夜炸场!GPT-5.2震撼发布,全球AI王座再次易主。
谷歌的领先优势,只保持了不到一个月。
在「红色警报」后,OpenAI 在北京时间本周五拿出了最新的顶级模型 GPT-5.2 系列 —— 迄今为止在专业知识工作上最强大的模型系列。

作为地表最强通用模型,GPT-5.2专为解决那些让人头秃的「高难度知识型工作」而生。
在OpenAI公布的基准测试中,它几乎对Gemini 3 Pro实现了全方位碾压!

相比上一代,GPT-5.2在通用智能、超长文本理解、Agent工具调用以及视觉能力上,都实现了无死角的全面进化:
一句话总结:让它从头到尾(端到端)搞定复杂的现实世界任务,目前没有任何模型比它更强。
GPT-5.2 Instant,为日常工作与学习而打造:
GPT-5.2 Thinking,为专业级工作全面提升标准:
GPT-5.2 Pro,在面对困难问题时最聪明、最值得信赖的模型:
GPT-5.2 的设计目标,就是为人们创造更多经济价值:它在制作电子表格、构建演示文稿、编写代码、理解图像、处理超长上下文、使用工具,以及执行复杂的多步骤项目方面都有显著提升。
真正的生产力不是空口无凭,让我们来看看数据,GPT-5.2 到底有多强。
在如图所示的众多基准测试中,GPT-5.2 均刷新了最新的 SOTA 水平。

你可以注意到,AIME 2025(数学)的分数是 100%,之前 Gemini 3 Pro 的分数是 95%;ARC-AGI-2(抽象推理)的分数是 52.9%,对比 Gemini 3 Pro 是 31.1 %;此外 SWE-bench pro(编码)的分数是 55.6%,对比 Gemini 3 Pro 是 43.3 %。

GPT-5.2 在 GDPval(知识工作)基准上的分数为 74.1%,OpenAI 声称这是 AI 模型首次达到了「人类专家水平」。
总体来看,GPT-5.2 在通用智能、长上下文理解、自主式工具调用以及视觉能力方面均带来了显著提升,使其比以往任何模型都更擅长端到端地完成复杂的真实世界任务。
山姆・奥特曼表示,GPT-5.2 是 OpenAI 很长一段时间以来最大的一次升级。
那些人类专家耗费4-8小时完成的任务,在人类评估中,GPT-5.2的胜率高达70.9%。
GPT‑5.2不负众望,在多项实际任务中表现得都更加出色——
创建电子表格、制作演示文稿、编写代码、感知图像、理解长上下文、使用工具、处理复杂的多步骤项目。

此前OpenAI的一份报告称,ChatGPT每天能为企业用户平均节省40–60分钟,而重度用户则表示每周能省下超过10小时。
与之前的模型相比,GPT-5.2 Thinking 对图像中各元素的位置关系理解得更加透彻,这对于「相对布局」在解决问题中起关键作用的任务尤为重要。
在下方的示例中,OpenAI 要求模型识别输入图像(本例中为主板)中的组件,并返回带有大致边界框的标签。即使在低质量图像上,GPT-5.2 也能识别出主要区域,并放置有时能与每个组件真实位置相匹配的框;而 GPT-5.1 仅标记了少数几个部分,且对其空间排列的理解要弱得多。

很明显,两个模型都存在错误,但 GPT-5.2 展示出了对图像更好的理解力。
这十年,他们取得了太多太多突破性的成就——
2016年,开源强化学习平台OpenAI Gym,成为学界、工业界RL研究的基础工具;
2017年,发表了Transformer核心理念的先驱研究:Learning to Remember Rare Events;
2018年,预训练语言模型GPT诞生,标志着大模型革命的开始;
2019年,1.5B参数GPT-2出世,自然语言爆发式迭代;
2020年,175B参数GPT-3引爆全网,超大规模模型时代来临;
2021年,Codex & DALL·E相继发布,代码与图像生成开启;
2022年,ChatGPT(GPT-3.5)真正引爆了全世界大模型革命,再之后的大事记大家都知道了。
奥特曼表示,「过去的十年非常精彩,OpenAI的工作比我想象的还要特别」。