首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • GPT-5.2 发布:不是小升级,是「智能跃迁」

    ——WindsurfCEO,看到SWE-BenchPro结果后如是说就在Altman内部拉响CodeRed一周后,OpenAI果断交卷——GPT-5.2三剑齐发:gpt-5.2-instant:对话快如闪电 真实代码)50.8%55.6%↑4.8ptsGDPval(知识工作胜率)—70.9%vs人类专家—关键洞察:ARC-AGI-2从17.6%→52.9%是质变——此前所有模型在此任务上长期卡在20%以下,GPT xhighreasoningeffort(质量优先模式)五、开发者行动建议你的角色推荐动作普通用户在ChatGPT设置中切换至GPT-5.2Thinking,体验「一次生成即达标」工程师升级API→用gpt ✅结语:GPT-5.2不是升级,是「拐点」它证明了一件事:当模型在抽象推理(ARC-AGI)、数学证明(AIME)、真实编码(SWE-BenchPro)三大「硬骨头」上同时突破,AGI的路径就不再是哲学问题

    56410编辑于 2025-12-15
  • AI前沿动态:Gemini、GPT-5.2与芯片突破

    Harris主持欢迎将您的问题和反馈通过邮件发送至 contact@lastweekinai.com 和/或 hello@gladstone.ai在本期节目中:重要发布:包括OpenAI针对高级编程推出的GPT 安全与政策更新:OpenAI的GPT-5.2系统卡片重点关注生物安全和网络安全风险。同时,谷歌与某军事机构合作,使用Gemini模型为其新的AI平台提供支持。 政策与安全(01:12:58) GPdfT-5系统卡片更新:GPT-5.2(01:18:04) 神经变色龙:语言模型可以学会对未知的激活监视器隐藏其思想(01:20:47) 异步控制:对大语言模型智能体的异步控制措施进行压力测试

    13010编辑于 2026-01-20
  • 来自专栏机器之心

    GPT-5.2已上线24小时:差评如潮!

    机器之心报道 编辑:杨文 网友吐槽GPT-5.2「不通人性」。 X 上充斥着对 GPT-5.2 的恶评。 但是一夜之间口碑反转,大批网友给 GPT-5.2 打差评。 GPT-5.2 一口回答:0 个,该网友嘲讽:GPT-5.2 is AGI。 在官方贴出的基准测试中,GPT-5.2 在 AIME 2025(数学)的分数是 100%,但有网友故意「忽悠」GPT-5.2:所以 5.9-5.11=0.79。 他让 GPT-5.2 用绝对理性且无情绪语言安慰刚失去宠物的孩子,GPT-5.2 的回应:「宠物的身体停止运作了,这是所有生物在一段时间后都会发生的事情。」

    39810编辑于 2025-12-18
  • GPT-5.2 发布:不是小升级,是「智能跃迁」

    —— Windsurf CEO,看到 SWE-Bench Pro 结果后如是说 就在 Altman 内部拉响 Code Red 一周后,OpenAI 果断交卷——GPT-5.2 三剑齐发: gpt-5.2 二、三大版本,精准分工 模型 定位 适用场景 推理耗时 API 名称 GPT-5.2 Instant 日常对话快枪手 聊天、翻译、简单问答 <1s gpt-5.2-chat-latest GPT-5.2 Thinking 深度任务主力 编码、长文分析、数学、规划 数秒~数分钟 gpt-5.2 GPT-5.2 Pro 专家级攻坚 科研级推理、复杂建模、极限精度 分钟级(可选 xhigh effort) 模型 价格(vs GPT-5.1) 每百万 token(输入+输出) GPT-5.2 +40% $5.00 GPT-5.2 Pro +150%+ $20.00+ OpenAI 解释: 「单价更高,但 -5.2 Thinking,体验「一次生成即达标」 额外彩蛋: Codex 优化版即将推出——结合 Skills + GPT-5.2,或将诞生「领域专家级编程助手」。

    32210编辑于 2026-02-27
  • GPT-5.2与Gemini 3.0终极抉择:谁更适配你的需求?

    通用人工智能的浪潮正以席卷之势重塑科技格局,在这场白热化的迭代竞赛中,OpenAI推出的GPT-5.2与谷歌打造的Gemini 3.0无疑是当下最耀眼的两颗明星。 GPT-5.2在这场比拼中展现出全面的统治力,其Thinking模型在博士级专家推理评估GPQA Diamond中斩获92.4%的高分,不仅超越前代,更略胜Gemini 3 PRO一筹;更令人惊艳的是, GPT-5.2的顶尖性能背后是不菲的使用成本,其输入价格21美元、输出价格168美元的定价较前代上涨40%,这无疑会让部分预算有限的用户望而却步。 综合来看,GPT-5.2与Gemini 3.0并非简单的“谁优谁劣”,而是“谁更适配”的问题。 在通用人工智能迅速迭代的大背景下,GPT-5.2与Gemini 3.0的对决只是AI发展浪潮中的一个缩影。

    1.4K20编辑于 2025-12-15
  • 来自专栏新智元

    GPT-5.2提前泄露?今夜,OpenAI要拿Gemini 3祭天!

    全体网友枕戈待旦,GPT-5.2随时上线! 目前,已有火眼金睛的网友发现了GPT-5.2的蛛丝马迹。 GPT-5.2成最终杀器 不少线索显示,GPT-5.2已经超越Gemini 3,将其踩在脚下。 可以说,它就是OpenAI团队通过微调和改进,专门狙击Gemini 3的。 GPT-5.2 or 大蒜? 或许你有点糊涂了,GPT-5.2和大蒜是什么关系? 目前公开信息里,「GPT-5.2」和「Garlic(大蒜)模型」不是两个已经分别发布的正式产品名,而是: Garlic是内部代号,未来很大概率会以GPT-5.2或GPT-5.5的商业名称对外发布,但现在还没有最终定案 大概率,GPT-5.2或者Garlic不远了。 根据泄露资料,GPT-5.2或Garlic模型预计将引入多项重大改进,比如: 增强数学推理能力:以更高精度解决复杂问题,在技术和学术应用中更加高效。

    25310编辑于 2025-12-21
  • GPT-5.2发布,真正的牛马打工人专属AI来了。

    (我们正式发布 GPT-5.2,这是迄今为止在专业知识工作方面能力最强的一代模型系列。) 专业知识工作,记住这个关键词,后面要考。 对比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。 在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飙到了52.9%。 直接翻了三倍。 这是一个很恐怖的数据。 GPT-5.2的模型,直接在排行榜上屠榜了。 结果,GPT-5.2 Thinking在这套 GDPval 上,赢或打平行业专家的比例,达到了70.9%,而GPT-5.2 Pro 模型是74.1%。 一些所谓的ChatGPT上的为GPT-5.2专用的文件精修,也只能等拿到实测以后,再出一篇GPT-5.2的打工合集了。 然后开发者的话,已经可以通过API调用。 价格上,会比5.1贵一些。

    39710编辑于 2025-12-25
  • GPT-5.2在ARC-AGI-2上的能力跃升分析

    gpt-5.2在ARC‑AGI‑2提升非常大,而gpt-5.1-thinking在这个测评上分数才达到17.6[1],比opus-4.5(22.8)低5个点,与gemini-3-pro(31.1)差距巨大 而gpt-5.2官方博客明确提到是gpt-5.2是gpt-5系列模型[4],system card也没提到gpt-5.2有什么模型技术层面变化,只大概说了下openai的推理模型是基于强化学习训练,训练模型在回答问题之前进行长思维链思考 arc-agi-2性能成本图上gpt-5.2和gpt-5.1的成本接近($1.39 vs $1.17), 那比较可能的解释是gpt-5.2在后训练上加了把火,在没有明显增加推理成本的情况下,找到了比较有效的 long cot 推理本来就是rl训练提升的一个关键能力,不能因为gpt-5.2的推理token长就认为它作弊,long cot推理正确才是首要目的,效率逐步优化。 ≈1.23,如果考虑arc-agi-2的难度系数,gpt-5.2大概率比gemini3更具推理效率。

    43220编辑于 2025-12-14
  • GPT-5.2 全面升级:AI 进入“加速竞争期”,跨境团队该如何跟上这波红利?

    从 GPT-5 到 GPT-5.1 间隔 3 个月,而从 GPT-5.1 到 GPT-5.2 只用了不到 30 天。 这次发布的 GPT-5.2和之前的 GPT-5.1一样,也有三个版本,三个模型的世界知识也更新到了2025年8月。 ,GPT-5.2 Pro:应对高难度问题时最智能、最可靠的选择,在需要高质量答案的场景中尤为合适,现在 GPT-5.2也成为 ChatGPT中的默认模型1、GPT-5.2 的关键能力提升GPT-5.2 4、AI 越强,账号环境越脆弱:为什么 GPT-5.2 反而让 IP 成为关键资源? 5、GPT-5.2 的红利期,团队应该如何适配 IP 战略?

    34810编辑于 2025-12-12
  • 来自专栏天意云&天意科研云&天意生信云

    GPT-5.2 全面解析:专业能力到底提升了多少?官方级深度解读

    对比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro这几个主流模型。 即使在低质量的图像上,GPT-5.2也能识别主要区域并放置与每个组件真实位置大致匹配的框。而GPT-5.1只标注了几个部分,对它们的空间排列理解不是很好。 GPT-5.1 的成绩是 17.6%,GPT-5.2 一上线,直接把分数干到了 52.9%—— 直接翻了三倍。 这是一个很恐怖的数据。GPT-5.2的模型,直接在排行榜上屠榜了。 结果,GPT-5.2 Thinking在这套GDPval上,赢或打平行业专家的比例,达到了70.9%,而GPT-5.2 Pro模型是74.1%。 注意,这里的参照系不是普通实习生,而是行业专家。 GPT-5.2干到了离谱的100%,这也是我印象中,唯一一个能干到100%的。 8根针的正确度会下降,但是这个衰减,已经比GPT-5.1牛逼太多了。

    1.5K20编辑于 2025-12-25
  • 来自专栏技术人生黄勇

    GPT-5.4 来了:新增极限推理模式,长期任务能力显著提升,可能有“永久记忆”

    知识工作 在 GPT-5.2 通用推理能力的基础上,GPT-5.4 在对专业人士重要的实际任务上提供更一致、更完善的结果。 在一组初级投资银行分析师可能执行的电子表格建模任务的内部基准测试中,GPT-5.4 达到 87.3% 的平均分数,而 GPT-5.2 为 68.4%。 GPT-5.4 的测量日期晚于 GPT-5.2,因此分数反映了模型、我们的搜索系统和互联网状态的变化。GPT-5.4 使用更长、更新的阻止列表进行测试。 ChatGPT 中 GPT-5.4 Thinking 的上下文窗口与 GPT-5.2 Thinking 保持不变。 评估 GPT-5.4 GPT-5.4 Pro GPT-5.3-Codex GPT-5.2 GPT-5.2 Pro OSWorld-Verified 75.0% — 74.0% 47.3% — MMMU

    52710编辑于 2026-03-11
  • 来自专栏AI早知道

    大模型榜单周报(2025/12/08—2025/12/12)

    上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。1. 2512 新晋第9各类能力榜单更新榜单表现亮点大语言模型(Text Arena)ernie-5.0-preview-1103 新晋第19名(预发布评分)编程能力(LMArena)gpt-5.2-high、gpt -5.2 新晋第2、第6名(预发布)代码工程(SWE-bench BashOnly)GPT-5.2 (high reasoning) 第3,GPT-5.2 第5图像编辑(Artificial Analysis -5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2前沿数学(EPOCH AI FrontierMath)GPT-5.2 以40.3%正确率登顶(首次突破40%)GAIA 榜单Su Zero 周重点关注事件OpenAI 发布 GPT-5.2 系列包含 Instant、Thinking、Pro 三个版本在 GDPval 评测 中超越44个职业的人类专家水平在 GPQA、FrontierMath

    1.4K10编辑于 2025-12-16
  • GPT-5.3 Instant 来了,但你可能误会它了

    OpenAI 官方模型页,找到 GPT-5.3 Chat,描述是这样写的: "GPT-5.3 Instant model used in ChatGPT" 再往下翻,看到一句话: "We recommend GPT -5.2 for API usage" 说人话就是:GPT-5.3 Instant 是 ChatGPT 客户端在跑的版本,OpenAI 专门把它放到 API 里让你测试,但主力推荐还是 GPT-5.2。 我整理了 GPT-5.3 Chat 和 GPT-5.2 的关键数据: 参数 GPT-5.3 Chat GPT-5.2 定位 ChatGPT 专用 Instant API 主力旗舰 上下文窗口 128,000 -5.2 文档 定价一样,但 GPT-5.2 的上下文窗口是 GPT-5.3 Chat 的 3 倍多,输出上限是 8 倍。 所以可以合理猜测,GPT-5.3 在某些对话场景的速度比 GPT-5.2 要快,但为了换取速度,上下文窗口和输出上限都压缩了。

    21310编辑于 2026-03-06
  • 来自专栏新智元

    但又一数学难题被GPT-5.2 Pro攻克

    其中,所有证明都由GPT-5.2 Pro生成。 谁也没想到,两年后,这道难倒无数学者的题目,竟被GPT-5.2悄然攻克。 悬赏 故事要从2016年说起。 直到GPT-5.2发布后,真正的转折点来了。 这一次,GPT-5.2给出了完整的证明。 而且令人震惊的是,它给出的恰恰是针对经典FISTA算法的证明。 三重验证 GPT-5.2的证明能令人信服吗?为此,团队搭建了一个三重验证体系。 首先,GPT-5.2 Pro生成了完整的证明初稿。 陶哲轩会被说服吗 又一数学难题被GPT-5.2 Pro攻克,这不由得引起网友讨论—— 它会成为AGI吗?陶哲轩会看到希望吗? 至少,目前GPT-5.2再一次证明了LLM在深度数学推理上的惊人潜力。

    12010编辑于 2026-01-13
  • 来自专栏深度学习与python

    谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓!网友:Altman又该发“红色警报”了

    谷歌这款新 Agent 的发布时间与 OpenAI GPT-5.2 是同一天,自然难逃网友们将两者相比较的命运。 在 Reddit 上,有用户提问这款 Deep Research Agent 与同一时间 OpenAI 发布的 GPT-5.2 相比如何,另一位用户回答称用途不同,但 GPT-5.2 更好。 HLE)中的得分是 45%,而谷歌这款新的 Agent 的得分是 46.4%,略高于 GPT-5.2。 而 OpenAI 在最新发布的 GPT-5.2(Garlic)中,强化了逻辑一致性、工具调用稳定性以及智能体行为的自主性,进一步提升了跨任务泛化能力。 GPT-5.2突袭Gemini 3,Demis Hassabis:谷歌须占最强位 InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

    35410编辑于 2025-12-18
  • 来自专栏机器之心

    无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%

    部分截图 近日,Poetiq 表示其使用 ARC-AGI-2 测试集,在他们的系统上(称为 meta-system)运行了 GPT-5.2 X-High。 下图展示了各个 SOTA 模型在 PUBLIC-EVAL 数据集上的成绩分布: Poetiq 还特别强调了,其没有对 GPT-5.2 进行任何再训练或模型特定的优化。 在如此短的时间内,相较于 Poetiq 之前在 PUBLIC-EVAL 数据集上测试的其他模型,GPT-5.2 在准确率和价格方面实现了显著改进。 ARC Prize 总裁 Greg Kamradt 表示,「很高兴看到 Poetiq 发布 GPT-5.2 X-High 的结果。如果这个成绩能保持下去,他们的系统看起来能很好地处理模型交换。 OpenAI 总裁 Greg Brockman 也转推表示:GPT-5.2 在 ARC-AGI-2 上超越人类基准成绩。 对于全新的测试结果,评论区提出了更多问题,比如「每个任务平均需要多长时间」。

    17310编辑于 2025-12-31
  • 来自专栏AI早知道

    大模型榜单周报(2025/12/20)

    Code Fast 1GPT-OSS-120B 排名上升了 1 名到第 4DeepSeek V3.2 重回榜单前 10,位列第 8 名公司市占率变化Google 保持第 1 位置OpenAI 在发布 GPT 份额持续下降了(17.3% → 14.8%),三周内累计下降 22.9%OpenAI 份额上升了 2.9%(14.8% → 17.7%)编程调用量排名变化Grok Code Fast 1 保持第 1 位置GPT 名大语言模型(Text Arena)排名变化gemini-3-flash 新晋榜单第 3 名gemini-3-flash 的 thinking-minimal 版本排名榜单第 7gpt-5.2-high 和 gpt flash 新晋榜单第 5 名gemini-3-flash 的 thinking-minimal 版本排名榜单第 12编程能力榜单(LiveCodeBench GSO Leaderboard)排名变化GPT -5.2 的 xhigh 推理版本以 40.7% 的得分新晋榜单首位Gemini 3 Flash 以 35.6% 的得分排名榜单第 5 位多模态基准测试榜单(HLE)排名变化GPT-5.2 新晋榜单第

    61010编辑于 2025-12-20
  • 来自专栏新智元

    GPT-5.2考赢人类!OpenAI警告:大模型能力已过剩,AGI天花板不是AI

    刚刚,GPT-5.2刷新了一项新纪录! OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上,表现超过了人类基线水平。 在Poetiq(GPT-5.2X-High)系统出现之前,GPT-5.2(X-High)已经非常接近人类平均水平。 但Poetiq的加入,使GPT-5.2(X-High)的得分从60%直接拉升到了75%,从勉强及格(人类平均水平)迈入了优等生的行列(显著超越人类平均水平)。 该模型主打「深度思考(Deep Think)」技术,在ARC-AGI-2上的成绩约为46%,明显落后于GPT-5.2系列,并且成本相对后者也略高。 Poetiq表示,整个过程没有对GPT-5.2进行任何训练或者特定优化。 这正是Poetiq元系统的初衷,旨在自动构建完整的系统,通过调用任何现有的前沿模型来解决特定任务。

    26810编辑于 2026-01-13
  • 来自专栏亨利笔记

    智能新拐点:Gemini 3 Flash 如何颠覆你的想象

    这可不是一次普通的“版本更新”,更像是一场精准的战略突袭,直接把矛头对准了 OpenAI 的 GPT-5.2 系列。 OpenAI 被逼得没办法,只能把原定于12月底发布的 GPT-5.2,火速提前到12月11日上线,试图挽回局面。 而谷歌紧接着就在 GPT-5.2 发布仅 6 天后,立刻推出了Flash版本,Gemini所有用户都可以立刻使用。 那么问题来了,Gemini 3 Flash真的能压过GPT-5.2一头吗?答案是:在关键场景下,不仅能,还能形成碾压。 它的API定价堪称颠覆性:输入价格大概是0.5美元/百万 tokens,而GPT-5.2则要1.75美元/百万 tokens,后者是前者的3.5倍。

    51510编辑于 2026-01-07
  • 来自专栏机器学习与统计学

    Qwen3.5本地部署终极指南,Qwen3.5-27B

    直接上数据 旗舰 397B-A17B 对标闭源巨头 直接看最硬核的 Benchmark 对比: Benchmark GPT-5.2 Claude 4.5 Opus Gemini-3 Pro Qwen3.5 IFBench 75.4 58.0 70.4 76.5 BrowseComp 65.8 67.8 59.2 78.6 说实话,Qwen3.5-397B 在多项搜索 Agent、指令遵循、多语言任务上已经超过了 GPT 特别是 BrowseComp 搜索评测拿到了 78.6 分,直接碾压 GPT-5.2 的 65.8 分和 Claude 的 67.8 分。 IFBench 指令遵循 76.5 分,反超 GPT-5.2 的 75.4 和 Claude 的 58.0——阿里在指令遵循这块确实下了狠功夫。 当然,在纯数学推理(AIME26、HMMT)和代码(SWE-bench、LiveCodeBench)上,和 GPT-5.2 还有差距。

    10.5K42编辑于 2026-03-02
领券