Ethan Mollick最近分享了一个耐人寻味的观察:GPT-5.2 Pro在处理复杂问题时表现惊艳,但它的“思维痕迹”却常常与最终结果脱节,工具调用过程也模糊不清。用他的话说——“没有可解释性,只有出奇好的答案。”
这句话值得细品。
我们正在见证一个奇特的历史时刻:人类造出了能通过律师资格考试的机器,却还没搞明白它为什么会讲错笑话。这完全颠覆了所有科幻电影的叙事——我们以为会先理解AI,再让它变强;现实却是它先强了,我们还在追问“为什么”。
有开发者指出,即便是非Pro版本,思维链条有时也会出现明显的混乱和错误,但最终却能“突然开窍”,输出优秀的结果。这种“过程一团糟、结果却很好”的现象,确实让人困惑。
有人调侃说,5.2 Pro之所以又贵又慢,大概是后台有一群数学奥赛选手在帮忙解题,而模型只是在思维痕迹里随便调用些工具来拖延时间。玩笑归玩笑,但它点出了一个真实的困境:当我们看到的“思考过程”只是装饰,而非真正的推理路径时,这已经不是传统意义上的“黑箱”了,而是一种新型的认知鸿沟。
这引发了一个根本性的问题:如果结果总是正确的,过程还重要吗?
从实用角度看,似乎不重要。但从信任和应用角度看,问题很大。企业需要审计轨迹,不只是正确答案;开发者需要调试能力,不只是最终输出;教育者需要理解学习路径,不只是标准答案。当思维痕迹与实际运行脱钩,失败时你甚至不知道该修什么。
有人一针见血地指出:下一个突破不是更强的能力,而是“可读的能力”。
也有人提出了务实的应对策略:先用其他工具做调研、核实来源,整理好素材后再让大模型帮忙总结和格式化。这样即便模型“编造”了什么,你也有底气判断。与其纠结于信不信任某个“不可解释的智能”,不如建立自己的验证流程。
还有观点认为,这些模型可能在进行并行推理,而我们看到的只是其中一条线性分支。真正的深层思考,或许连OpenAI的工程师都无法完全窥见了。
这让我想到一个更深的命题:我们正在从“理解后信任”走向“验证后信任”。过去我们信任一个系统,是因为理解它的运作原理;未来我们可能只能通过反复验证结果来建立信任,而永远无法真正“理解”它。
这不一定是坏事,但确实需要我们重新思考人机协作的方式。
x.com/emollick/status/2010093809372409989