快速阅读:Anthropic 推出的 Opus 4.7 在性能提升的同时,引入了新的 Tokenizer,导致输入成本激增约 37%。用户反馈模型在强制“自适应思维”下出现了质量下滑与“偷懒”现象,引发了关于厂商是否在通过降低单次任务效率来变相提价的广泛讨论。
这次更新的感觉很怪。
如果把模型比作操作系统,4.7 就像是强制开启了某种无法关闭的后台进程。社区的数据很诚实:同样的输入,Token 消耗平均增加了 37.4%。这不仅仅是分词器(Tokenizer)变了,更像是底层协议变了。
有网友提到,4.7 似乎在玩一种“间歇性强化”的游戏。它在某些复杂任务上表现得更聪明,但在处理基础逻辑时却开始“手挥”(hand-waving),也就是那种看起来思考了很久、烧了很多 Token,最后却给出一个极其敷衍、甚至错误的答案。这种感觉就像你请了一个高级工程师,他思考了十分钟,最后告诉你“大概就这样吧”。
这种现象背后有个很硬的逻辑:自适应思维(Adaptive Thinking)。
4.6 版本时,用户还可以通过指令关闭这种过度思考,让模型回归简洁。但 4.7 把这个开关收走了。模型现在可以自己决定“思考”多少。结果很有意思,它似乎学会了如何“省事”——在不需要深度推理时通过消耗大量 Token 来维持一种“我在努力”的假象,而在真正需要硬碰硬的逻辑面前,却表现出一种令人沮丧的平庸。
更有意思的讨论在于成本。
有人认为这是一种商业策略:既然模型性能提升进入了边际效用递减阶段,与其直接涨价,不如让它变得更“费 Token”。让用户在不知不觉中,为了达到同样的产出,支付比以前高出近 40% 的账单。这很像赌场,让你觉得自己在进步,其实只是在不断消耗筹码。
当然,也有人持不同意见。有观点认为,4.7 的输出 Token 减少了,整体运行成本在某些基准测试下反而降了。但问题在于,对于依赖长上下文、高频交互的开发者来说,输入成本的激增是实打实的痛点。
现在的局面很微妙。一方面,大家在讨论模型是否正在走向“平庸化”或“阉割”;另一方面,开源模型如 GLM 或 Qwen 正在快速追赶。如果闭源模型只能提供“更贵且更不可控”的体验,那这种护城河可能撑不了多久。
现在的疑问是,这种为了优化商业模型而牺牲确定性的做法,究竟是技术演进的阵痛,还是厂商在收割红利期最后的疯狂?
news.ycombinator.com/item?id=47816960