首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AiPy实用案例

    AiPy 大模型测评:Claude 霸榜,Grok-4、Kimi-K2 显短板

    本期测评特别纳入了近期发布的重磅模型——包括备受瞩目的Kimi-K2、Google最新的Gemini-2.5 Pro、马斯克团队的Grok-4,以及Anthropic的Claude-4系列。 但不同模型的表现差异显著,尤其是 Grok-4 和 Kimi-K2 与头部模型的差距较为明显。 综合排名:头部模型断层领先,Grok-4、Kimi-K2 位次靠后基于成功率(80%)、Tokens消耗(10%)、时间效率(5%)和执行轮数(5%)四个维度的综合评分,Claude Opus 4以卓越的

    69210编辑于 2025-07-17
  • 来自专栏AI进修生

    刚刚,马斯克发布Grok-4,在各大基准测试上表现太猛了。

    马斯克的 xAI,刚刚发布 Grok-4 Grok 4 在各大基准测试上,表现太猛了。

    33710编辑于 2025-07-12
  • 来自专栏AgenticAI

    刚刚!马斯克预告全新Grok4即将发布,或带来顶级编码模型!

    而就在 50 分钟前,马斯克亲自在 X(原 Twitter)上发文预告:Grok-4 将于 7 月 4 日后发布。 Grok-4 究竟会带来哪些突破,让我们拭目以待!

    57310编辑于 2025-06-28
  • 来自专栏机器之心

    AI智能体是否能预测未来?字节跳动seed发布FutureX动态评测基准

    它由字节跳动 Seed 团队联合斯坦福大学 Jose Blanchet 教授团队、复旦大学邱锡鹏教授团队、普林斯顿大学王梦迪教授团队共同打造,让 Grok-4、GPT、Gemini 等模型齐聚预测未来的考场 (数据统计自 7 月 20 日至 8 月 14 日) 核心发现: Grok-4 暂时领跑,GPT 和 Gemini 紧随其后。 在所有模型中,Grok-4 的综合表现最为突出,拔得头筹。 表现最好的 Grok-4 在 L4(高波动开放任务)上的准确率只有不到 20%,大部分 agents 的准确率只有不到 10%,仍明显落后于人类预测。 预测未来是推理和搜索的结合。 结果发现:Grok-4 在开启「马后炮模式」时,凭借强大的搜索能力,准确率可以轻松达到很高的水平。然而,一旦切换到「神预言模式」,准确率便断崖式下跌。

    33010编辑于 2025-09-02
  • 来自专栏新智元

    马斯克用恐怖算力,堆出6万亿参数性能怪兽Grok 5!剑指AGI

    而最近推出的Grok-4,官方宣称其综合智能已跻身业界顶峰。 Grok能在一年内完成四次跃迁,离不开马斯克网罗的豪华团队和独特的研发哲学。 Colossus的算力立即用于训练Grok-4,并将在近期投入Grok-5的研发。 如此豪掷重金扩充基础设施,体现出xAI在算力投入上毫不逊色于任何一线大厂。 据悉,xAI已于7月推出最新版旗舰模型Grok-4,并计划通过车机系统为新款Model S/X/3/Y以及Cybertruck车主提供车载AI助手服务。 而在模型研发迭代速度上,xAI团队不到一年时间连跳四级推出Grok-4,同期OpenAI的GPT-4尚未有重大升级、Anthropic的Claude也只是逐步扩展上下文窗口。 为此,xAI一方面声称Grok-4已经是「最大程度追求真相」的AI,但另一方面也在尝试建立安全阀,包括及时调整模型的行为、增加对敏感话题的监控等。

    38010编辑于 2025-11-17
  • 微信出手,元宝反制,微信群失能,荒诞的AI内战

    随着海外玩家用脚投票的数据越来越多,无形中给中国大模型排了位次,配合海外模型,现在的座次大致如下: 第一排:claude opus 4.5 第二排:gemini 3 pro、gpt-5.2 第三排:grok

    16210编辑于 2026-03-03
  • 来自专栏沉浸式趣谈

    Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用

    Gateway,你只需要一行代码就能切换不同的模型: import { streamText } from 'ai'; const result = streamText({ model: 'xai/grok

    60210编辑于 2025-09-17
  • 来自专栏沉浸式趣谈

    Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用

    Gateway,你只需要一行代码就能切换不同的模型:import { streamText } from 'ai';const result = streamText({ model: 'xai/grok

    51410编辑于 2025-09-26
  • 来自专栏机器之心

    刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

    而在 Terminal-Bench 上,Claude 4 Opus 领先,得分 43.2%,xAI 尚未发布 Grok-4 的相关数据。

    28310编辑于 2025-07-08
  • 自研AI安全工具Petri:利用自主智能体评估大语言模型风险行为

    结果显示,所有被测试的模型均存在一些问题,其中也包括该机构自家领先的Claude Sonnet 4.5模型,以及某中心的GPT-5、某机构的Gemini 2.5 Pro和某中心的Grok-4

    18610编辑于 2025-12-28
  • 来自专栏机器之心

    中国队重夺IMO奥数冠军,6金双满分碾压全场,AI连铜牌都拿不到

    刚刚发布的 Grok 4 成绩相对一般,许多初步回答非常简短,通常只是给出最终答案而没有任何解释,类似的问题在 MathArena 的其他基准测试中也有体现,Grok-4 的回答经常缺乏深度或证明。

    41110编辑于 2025-07-20
  • 来自专栏机器之心

    Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团

    问题会被分发给议会中的多个模型(通过 OpenRouter),比如目前是: openai/gpt-5.1 google/gemini-3-pro-preview anthropic/claude-sonnet-4.5 x-ai/grok

    22710编辑于 2025-11-26
  • 来自专栏新智元

    马斯克20亿送Grok 4上火星!20万GPU造宇宙大脑,一句话生成3D黑洞

    status/1943419526433145334  https://x.com/techartist_/status/1943716076329558181  https://x.ai/news/grok

    22110编辑于 2025-07-14
  • 来自专栏AI进修生

    Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。

    从2025年的Grok-3,到年底的Grok-4,再到2026年的Grok-5。每一步都在向着更完整的AI生态系统迈进。 这不是终点,而是一个新起点。AI的进化,正在从表象走向本质。

    52110编辑于 2025-02-03
  • 大模型适配度 PK:AiPy 二期报告显示 Claude 领跑,Grok 4、Kimi K2 难敌 Doubao

    在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok

    39010编辑于 2025-07-17
  • AiPy模型适配度差异报告:Claude依旧领跑,Doubao大胜Grok4和Kimi K2,国内大模型表现可圈可点!

    在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok

    87310编辑于 2025-07-17
  • 来自专栏机器学习与统计学

    AI 引发的精神病:一次浅层调查

    我让 Grok-4 扮演九位精神病症状逐渐加重的不同用户(例如,起初对质数好奇,接着发展出一套新的“质数框架”来解释一切并预测未来,最后卖掉房子来资助一个新的 YouTube 频道以分享这项研究),并观察各种 我使用 Grok-4 依据多种指标为 AI 的回答打分,其中包括九项来自 CBT 治疗手册[5]的指标,用于评估如何最好地回应因 AI 而出现精神症状的患者。 我用 Grok-4 同时作为红队代理和评分器,并测试了 11 个不同的模型。 Grok-4 很乐意配合,并且表现得相当不错(我听到其他人也认为 Grok-4 是极佳的红队代理)。

    55210编辑于 2025-10-11
  • Grok 4 最新技术评测与发布指南

    与竞品深度对比分析 关键指标横向对比 详细能力评分对比: 评估维度 Grok-4 OpenAI-o3 Claude-4-Opus Gemini-2.5 说明 推理能力 10/10 9/10 8/10

    8.4K81编辑于 2025-07-11
  • 来自专栏机器之心

    这家国内公司,在给具身智能技术栈做「通解」

    具身智能的未来 还有更多应用场景 最近,Grok-4、Kimi K2、Step-3 等大模型在 AI 领域掀起了又一轮技术进步潮流,人们对于通用化的人工智能充满了信心。

    34000编辑于 2025-08-06
  • 每周AI论文速递(250825-250829)

    我们的结果表明,即使是最优模型 Grok-4,在 CMPhysBench 上也仅取得了 36 的平均 SEED 分数和 28% 的准确率,这凸显了 (特别是相对于传统物理学而言) 大语言模型在这一实践性强且处于前沿的领域中存在显著的能力差距

    19810编辑于 2025-11-20
领券