本期测评特别纳入了近期发布的重磅模型——包括备受瞩目的Kimi-K2、Google最新的Gemini-2.5 Pro、马斯克团队的Grok-4,以及Anthropic的Claude-4系列。 但不同模型的表现差异显著,尤其是 Grok-4 和 Kimi-K2 与头部模型的差距较为明显。 综合排名:头部模型断层领先,Grok-4、Kimi-K2 位次靠后基于成功率(80%)、Tokens消耗(10%)、时间效率(5%)和执行轮数(5%)四个维度的综合评分,Claude Opus 4以卓越的
马斯克的 xAI,刚刚发布 Grok-4 Grok 4 在各大基准测试上,表现太猛了。
而就在 50 分钟前,马斯克亲自在 X(原 Twitter)上发文预告:Grok-4 将于 7 月 4 日后发布。 Grok-4 究竟会带来哪些突破,让我们拭目以待!
它由字节跳动 Seed 团队联合斯坦福大学 Jose Blanchet 教授团队、复旦大学邱锡鹏教授团队、普林斯顿大学王梦迪教授团队共同打造,让 Grok-4、GPT、Gemini 等模型齐聚预测未来的考场 (数据统计自 7 月 20 日至 8 月 14 日) 核心发现: Grok-4 暂时领跑,GPT 和 Gemini 紧随其后。 在所有模型中,Grok-4 的综合表现最为突出,拔得头筹。 表现最好的 Grok-4 在 L4(高波动开放任务)上的准确率只有不到 20%,大部分 agents 的准确率只有不到 10%,仍明显落后于人类预测。 预测未来是推理和搜索的结合。 结果发现:Grok-4 在开启「马后炮模式」时,凭借强大的搜索能力,准确率可以轻松达到很高的水平。然而,一旦切换到「神预言模式」,准确率便断崖式下跌。
而最近推出的Grok-4,官方宣称其综合智能已跻身业界顶峰。 Grok能在一年内完成四次跃迁,离不开马斯克网罗的豪华团队和独特的研发哲学。 Colossus的算力立即用于训练Grok-4,并将在近期投入Grok-5的研发。 如此豪掷重金扩充基础设施,体现出xAI在算力投入上毫不逊色于任何一线大厂。 据悉,xAI已于7月推出最新版旗舰模型Grok-4,并计划通过车机系统为新款Model S/X/3/Y以及Cybertruck车主提供车载AI助手服务。 而在模型研发迭代速度上,xAI团队不到一年时间连跳四级推出Grok-4,同期OpenAI的GPT-4尚未有重大升级、Anthropic的Claude也只是逐步扩展上下文窗口。 为此,xAI一方面声称Grok-4已经是「最大程度追求真相」的AI,但另一方面也在尝试建立安全阀,包括及时调整模型的行为、增加对敏感话题的监控等。
随着海外玩家用脚投票的数据越来越多,无形中给中国大模型排了位次,配合海外模型,现在的座次大致如下: 第一排:claude opus 4.5 第二排:gemini 3 pro、gpt-5.2 第三排:grok
Gateway,你只需要一行代码就能切换不同的模型: import { streamText } from 'ai'; const result = streamText({ model: 'xai/grok
Gateway,你只需要一行代码就能切换不同的模型:import { streamText } from 'ai';const result = streamText({ model: 'xai/grok
而在 Terminal-Bench 上,Claude 4 Opus 领先,得分 43.2%,xAI 尚未发布 Grok-4 的相关数据。
结果显示,所有被测试的模型均存在一些问题,其中也包括该机构自家领先的Claude Sonnet 4.5模型,以及某中心的GPT-5、某机构的Gemini 2.5 Pro和某中心的Grok-4。
刚刚发布的 Grok 4 成绩相对一般,许多初步回答非常简短,通常只是给出最终答案而没有任何解释,类似的问题在 MathArena 的其他基准测试中也有体现,Grok-4 的回答经常缺乏深度或证明。
问题会被分发给议会中的多个模型(通过 OpenRouter),比如目前是: openai/gpt-5.1 google/gemini-3-pro-preview anthropic/claude-sonnet-4.5 x-ai/grok
status/1943419526433145334 https://x.com/techartist_/status/1943716076329558181 https://x.ai/news/grok
从2025年的Grok-3,到年底的Grok-4,再到2026年的Grok-5。每一步都在向着更完整的AI生态系统迈进。 这不是终点,而是一个新起点。AI的进化,正在从表象走向本质。
在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok
在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok
我让 Grok-4 扮演九位精神病症状逐渐加重的不同用户(例如,起初对质数好奇,接着发展出一套新的“质数框架”来解释一切并预测未来,最后卖掉房子来资助一个新的 YouTube 频道以分享这项研究),并观察各种 我使用 Grok-4 依据多种指标为 AI 的回答打分,其中包括九项来自 CBT 治疗手册[5]的指标,用于评估如何最好地回应因 AI 而出现精神症状的患者。 我用 Grok-4 同时作为红队代理和评分器,并测试了 11 个不同的模型。 Grok-4 很乐意配合,并且表现得相当不错(我听到其他人也认为 Grok-4 是极佳的红队代理)。
与竞品深度对比分析 关键指标横向对比 详细能力评分对比: 评估维度 Grok-4 OpenAI-o3 Claude-4-Opus Gemini-2.5 说明 推理能力 10/10 9/10 8/10
具身智能的未来 还有更多应用场景 最近,Grok-4、Kimi K2、Step-3 等大模型在 AI 领域掀起了又一轮技术进步潮流,人们对于通用化的人工智能充满了信心。
我们的结果表明,即使是最优模型 Grok-4,在 CMPhysBench 上也仅取得了 36 的平均 SEED 分数和 28% 的准确率,这凸显了 (特别是相对于传统物理学而言) 大语言模型在这一实践性强且处于前沿的领域中存在显著的能力差距