模型跑分细节表现 数学领域(AIME'24): Grok-3:52分,遥遥领先,表现最优; GPT-4o:仅得9分,表现异常低迷; 其他模型(Grok-3 mini、Gemini-2 Pro、DeepSeek-V3 科学领域(GPQA): Grok-3:75分,依旧排名第一; Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 均为 65 分,说明这些模型在科学推理方面实力相当。 在同一测试场景下,它的表现超过了 o3 mini、DeepSeek-R1 以及 Gemini-2 Flash Thinking,说明其在推理能力方面也已跻身第一梯队。
其他模型(Grok-3 mini, Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet)分数在 36-40 之间,相差不大。 Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet 均为 65分,表明这些模型在科学推理上能力相当。 打败了o3 mini、DeepSeep-R1和Gemini-2 Flash Thinking。 在发布会上还有一张图展示了目前Grok3发展的速度。
93分,mini版96分,远超o1的83分 - Science(GPQA):两个版本都达到85/84分,超过o3mini(high)的80分 - Coding(LCB):保持79/80分水平,大幅领先Gemini
一个高水平的数学竞赛)、GPQA(一个研究生水平的科学知识测试)、LCB Oct-Feb(编程能力测试)」上超越了所有主流模型,包括 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini