首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >新版本的Grok 4体验效果惊人~

新版本的Grok 4体验效果惊人~

原创
作者头像
算法一只狗
发布2025-09-28 00:04:39
发布2025-09-28 00:04:39
6800
举报

距离 Grok 3 发布仅 5 个月,Grok 4 已正式面世。这一超短迭代周期,离不开背后庞大的算力储备与技术积累。 据官方披露,Grok 4 的训练总算力消耗高达 20 万张 GPU 卡·天,在规模上刷新了行业纪录。

这说明:只要 GPU 储备足够充沛,再复杂的大模型也能在短周期内完成训练。某种意义上,Grok 4 已成为“暴力美学”的代名词。

一、发布了什么模型?

在发布会上,官方同步推出了两款模型:

  • Grok 4:基于单代理推理架构,依靠精细化调优的 Transformer 网络实现高效推理。在多项裸机基准测试中超越前代版本。
  • Grok 4 Heavy:升级为 四代理协同混合架构。每个 Agent 可独立运行子任务,再通过投票机制凝聚结果,适配复杂推理与多人协作场景,容错率与稳定性更强。

使用限制:受算力与成本约束,普通用户暂不可直接调用完整模型。官方采用 按量计费 模式,并计划后续逐步开放限时体验或免费试用。

二、核心能力升级细节

  • GPQA:Grok 4(无工具)得分 87.5%,位列第二,仅次于 Heavy 版的 88.9%
  • AIME25:Grok 4 单机版满分 100,全面超越 o3 与 Gemini 系列,尤其在题型切换与上下文联动方面表现优异。
  • USAMO25:Grok 4(无工具)得分 21.7%;Heavy 版借助多代理协同,成绩飙升至 61.9%
  • Artificial Analysis 评分:Grok 4 综合得分 73 分,较前代提升 6 分,超越 o3 与 Gemini 2.5,在语言理解、代码生成与对话一致性方面优势明显。

价格方面

  • 输入:$3 / 百万 token
  • 输出:$15 / 百万 token 位列现有 API 定价的前三。高价印证了其模型规模庞大,但也成为推广掣肘。 对预算敏感或需离线部署的用户而言,DeepSeek 系列依旧是高性价比之选。

三、测试效果

任务1:小球碰撞实验

生成多层六边形小球滚动动画,效果自然且美观。

任务2:文字与表情塗鸦:从随机跑动到 Hello World

网友用 Grok 4 Heavy 生成复杂动画,小人随机移动后拼出 “Hello World”,最后跳出笑脸。

任务 3:单层六边形小球测试(物理规律理解)

在 SVG 六边形场景下,Grok 4 成功生成合理运动描述和代码,远超 o3。

任务 4:多层推理的法律财务题

以表格+分步总结的形式梳理收购案例中的多方责任,条理清晰。

任务 5:代码翻译(Python → Go,附西班牙语注释)

成功将 Python 递归函数翻译为 Go,并逐行添加西班牙语注释,展现多语言编程能力。

任务 6:向博士生与十岁儿童分别解释 Transformer

面向博士生与 10 岁儿童,分别讲解 Transformer 原理,表达精准且风格得当。

四、其他网友测试

Epic 创始人称 “Grok 4 就是 AGI” Epic 创始人 Tim Sweeney 亲自上阵,将一篇他认为模型从未接触过的论文交给 Grok 4,要求对文中新问题给出见解。Grok 4 不仅条理清晰地作答,还提出了有洞见的观点,促使 Tim 直呼“这就是 AGI!”。马斯克随后在社交平台转发并表示认同。

欧拉恒等式的可视化展示 一位开发者 Dan 询问 Grok 4 最喜爱的数学公式,模型回答 “eiπ+1=0e^{i\pi}+1=0eiπ+1=0”。随后的四轮对话中,Grok 4 以代码与网页的形式构建了可视化演示,帮助这位学过五学期高数却始终未彻悟欧拉恒等式的“数学党”真正理解了该公式的美与内在联系。

SVG 绘图大比拼:视觉与空间推理测试 社区在 Reddit 上发起多模型 SVG 绘图测评:

  • 美国地图重绘Gemini 2.5 Pro 形状最接近真实地图,但部分州界线略有偏差;Grok 4 Heavy 轮廓准确、无州块重叠,细节略简化;o3Claude 4 多次出现相邻州块重叠或错位。
  • 漫画场景再现Grok 4 Heavy 能较好还原人物轮廓与对话框位置,但背景细节略缺;o3 线条扭曲、对话框缺失或位置错误;Gemini / Claude 4 在色块与线条连接处出现断裂或偏移。
  • 专辑封面原创设计(纯 SVG)Grok 4 Heavy 风格简洁、结构合理,渲染正确;Gemini 2.5 Pro / Claude 4 创意更抽象,但局部坐标与尺寸偏离;o3 布局松散、元素重叠,整体观感一般。

五、写在最后

Grok 4 的发布,标志着多代理架构与多模态工具链结合的人工智能系统,正在向通用人工智能(AGI)稳步迈进。在数学推理、法律逻辑、多语种编程、跨领域知识整合、空间想象与绘图表达等任务中,Grok 4 Heavy 展现出了高度一致性与可解释性,逐步突破了以往大模型“会说不会做”“回答浮于表面”的局限。

然而,当前 Grok 4 系列仍存在不足,最突出的挑战是 调用成本过高,这限制了中小开发者和个人用户的广泛使用。

如果未来 Grok 系列能够在架构上持续优化计算效率、降低推理成本,并在生态层面向开发者开放更多接口与模块,便有望被更大范围地采纳。

这也契合了马斯克所憧憬的愿景——“一个能与人类并肩工作的智能伙伴”,而非仅仅是一个对话机器人。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、发布了什么模型?
  • 二、核心能力升级细节
  • 三、测试效果
  • 四、其他网友测试
  • 五、写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档