首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法一只狗

    Grok-3干掉GPT-4o,却没走出“AI死胡同”?

    模型跑分细节表现 数学领域(AIME'24): Grok-3:52分,遥遥领先,表现最优; GPT-4o:仅得9分,表现异常低迷; 其他模型(Grok-3 mini、Gemini-2 Pro、DeepSeek-V3 科学领域(GPQA): Grok-3:75分,依旧排名第一; Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 均为 65 分,说明这些模型在科学推理方面实力相当。 在同一测试场景下,它的表现超过了 o3 mini、DeepSeek-R1 以及 Gemini-2 Flash Thinking,说明其在推理能力方面也已跻身第一梯队。

    45200编辑于 2025-05-04
  • 来自专栏算法一只狗

    Grok3大模型是「地表最强」的AI吗?

    其他模型(Grok-3 mini, Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet)分数在 36-40 之间,相差不大。 Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet 均为 65分,表明这些模型在科学推理上能力相当。 打败了o3 mini、DeepSeep-R1和Gemini-2 Flash Thinking。 在发布会上还有一张图展示了目前Grok3发展的速度。

    38010编辑于 2025-03-18
  • 来自专栏AI进修生

    刚刚,马斯克祭出地表最强AI:20万张GPU打造Grok-3复仇,DeepSeek、OpenAI通通拿下!网友:这次没说谎。

    93分,mini版96分,远超o1的83分 - Science(GPQA):两个版本都达到85/84分,超过o3mini(high)的80分 - Coding(LCB):保持79/80分水平,大幅领先Gemini

    45800编辑于 2025-02-19
  • 来自专栏Datawhale专栏

    马斯克全新发布Grok3模型,坐拥20万张卡的新王!

    一个高水平的数学竞赛)、GPQA(一个研究生水平的科学知识测试)、LCB Oct-Feb(编程能力测试)」上超越了所有主流模型,包括 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini

    41310编辑于 2025-02-19
领券