
斯坦福大学2025年6月的研究专门讨论了这个问题:现有AI推理增强技术对所有问题都采用相同强度的推理,导致简单问题被过度复杂化,复杂问题反而得不到足够深入的分析。他们提出了"分数推理"概念——让AI像人类一样,根据问题难易程度调节思考深度。
GPT-5.5和Gemini 3.5都在往这个方向走,但走法完全不同。
GPT-5.5代号"Spud",2026年4月23日发布,采用MoE稀疏激活架构。它通过reasoning_effort参数提供六档控制:
六档制的核心价值不是"让模型想更久",而是"让模型在对的深度上想"。InfoQ研究中心的推理模型测评就指出,模型平均思考时长超过200秒的复杂科学推理,准确率只有20%左右——思考时间最长,准确率反而最低。
一个关键细节:GPT-5.5还有独立的verbosity参数。reasoning_effort控制"想多久",verbosity控制"说多少"——两者解耦,可以"深思熟虑但只说一句话"。这是Gemini目前做不到的。
成本参考:none档1x、low档1.5x、medium档3x、high档6x、xhigh档10x。实测70%的日常查询走minimal或low就够了,比全用high降低60%以上成本。
Gemini 3.5 Flash于2026年5月19日Google I/O大会发布,用thinking_level参数分四档控制推理深度:
Google官方测试:同一份prompt在Minimal下延迟0.3秒、Token消耗42;切到High后延迟升至8.7秒、Token暴涨至216。差值是指数级跃升。
Gemini的独有优势是Thinking Retention。多轮对话中之前的推理上下文不会清空,模型自动沿用之前的推论脉络。这对编程调试特别实用——第一轮分析的代码结构可以直接用于后续修改建议,不需要重复喂上下文。
维度 | GPT-5.5 | Gemini 3.5 Flash |
|---|---|---|
档位数量 | 6档 | 4档 |
思考与表达解耦 | verbosity参数独立控制 | 无独立控制 |
跨轮推理保留 | 标准多轮上下文 | Thinking Retention |
输出速度 | ~70 tokens/秒 | ~289 tokens/秒 |
输出价格 | $30/百万token | $9/百万token |
成本优势场景 | 简单任务none档极快极省 | 常规任务综合便宜15-20倍 |
GPT-5.5胜在精细控制——六档加上verbosity,调节粒度比Gemini细。Gemini胜在速度和性价比——输出速度快4倍,Abacus.AI的CEO透露编码和推理已达到GPT-5.5约92%的能力,成本却便宜15到20倍。
坑一:全开高档是最大的浪费。 InfoQ报告显示,八款推理模型在多步推理维度普遍拉胯——模型"会想一步"但"想不了太多步"的问题依然存在。开高档位不等于解决问题。
坑二:想得久不一定想得对。 复杂科学推理中模型平均思考超过200秒,准确率却只有20%。深度思考和正确推理之间没有线性关系。
坑三:高档位会放大提示词缺陷。 提示词有逻辑矛盾时,高档位消耗更多资源试图调和矛盾。经验法则:提示词没写好先用low迭代,确定方向后再升档。
简单任务走Gemini Minimal控制成本,关键决策走GPT-5.5 high/xhigh保障质量。探索性头脑风暴用低档找方向,确定路径后用高档深挖。
一个被验证有效的分流策略:感知层用轻量模型分类意图,规划层调GPT-5.5开high生成拆解计划,执行层简单子任务切回低成本模型,审核层最终成果由GPT-5.5闭环校验。通过这种混合编排,整体API消耗成本可以降低40%以上。
从账单反推浪费点也很有效:如果发现prompt长度小于50字符却用了high档位,这就是典型误配。
推理强度控制正在成为大模型的标配能力。斯坦福的"分数推理"研究指出了方向:未来的推理控制可能不是几个离散档位,而是连续可调的"旋钮"。
2026年的AI竞争已经不是"谁的模型更强",而是"谁能更好地控制推理深度、平衡成本和体验"。推理模型正从"一个大脑"演变为"带工具的多能智能体",评测维度和应用边界都在同步扩展。
对开发者来说,理解这两个参数的差异比调Prompt更重要。建议用同一个任务对比两个模型不同推理强度的实际效果——用数据做选型,比看任何排行榜都靠谱。记住:推理强度是油门和刹车,会踩比踩到底更重要。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。