在深层难度上,Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的题目;GPT-5 Pro 表现相对更好,但也只解出了 4/100。
从2025年下半年gpt-5,opus-4系列开始,前沿模型迭代加速,agentic能力成为了模型发布时重点突出的一等公民。