新版本的Grok 4体验效果惊人~

原创

算法一只狗

发布于 2025-09-28 00:04:39

6800

距离 Grok 3 发布仅 5 个月，Grok 4 已正式面世。这一超短迭代周期，离不开背后庞大的算力储备与技术积累。据官方披露，Grok 4 的训练总算力消耗高达 20 万张 GPU 卡·天，在规模上刷新了行业纪录。

这说明：只要 GPU 储备足够充沛，再复杂的大模型也能在短周期内完成训练。某种意义上，Grok 4 已成为“暴力美学”的代名词。

一、发布了什么模型？

在发布会上，官方同步推出了两款模型：

Grok 4：基于单代理推理架构，依靠精细化调优的 Transformer 网络实现高效推理。在多项裸机基准测试中超越前代版本。
Grok 4 Heavy：升级为 四代理协同混合架构。每个 Agent 可独立运行子任务，再通过投票机制凝聚结果，适配复杂推理与多人协作场景，容错率与稳定性更强。

使用限制：受算力与成本约束，普通用户暂不可直接调用完整模型。官方采用 按量计费 模式，并计划后续逐步开放限时体验或免费试用。

二、核心能力升级细节

GPQA：Grok 4（无工具）得分 87.5%，位列第二，仅次于 Heavy 版的 88.9%。
AIME25：Grok 4 单机版满分 100，全面超越 o3 与 Gemini 系列，尤其在题型切换与上下文联动方面表现优异。
USAMO25：Grok 4（无工具）得分 21.7%；Heavy 版借助多代理协同，成绩飙升至 61.9%。
Artificial Analysis 评分：Grok 4 综合得分 73 分，较前代提升 6 分，超越 o3 与 Gemini 2.5，在语言理解、代码生成与对话一致性方面优势明显。

价格方面：

输入：$3 / 百万 token
输出：$15 / 百万 token 位列现有 API 定价的前三。高价印证了其模型规模庞大，但也成为推广掣肘。对预算敏感或需离线部署的用户而言，DeepSeek 系列依旧是高性价比之选。

三、测试效果

任务1：小球碰撞实验

生成多层六边形小球滚动动画，效果自然且美观。

任务2：文字与表情塗鸦：从随机跑动到 Hello World

网友用 Grok 4 Heavy 生成复杂动画，小人随机移动后拼出 “Hello World”，最后跳出笑脸。

任务 3：单层六边形小球测试（物理规律理解）

在 SVG 六边形场景下，Grok 4 成功生成合理运动描述和代码，远超 o3。

任务 4：多层推理的法律财务题

以表格+分步总结的形式梳理收购案例中的多方责任，条理清晰。

任务 5：代码翻译（Python → Go，附西班牙语注释）

成功将 Python 递归函数翻译为 Go，并逐行添加西班牙语注释，展现多语言编程能力。

任务 6：向博士生与十岁儿童分别解释 Transformer

面向博士生与 10 岁儿童，分别讲解 Transformer 原理，表达精准且风格得当。

四、其他网友测试

Epic 创始人称 “Grok 4 就是 AGI” Epic 创始人 Tim Sweeney 亲自上阵，将一篇他认为模型从未接触过的论文交给 Grok 4，要求对文中新问题给出见解。Grok 4 不仅条理清晰地作答，还提出了有洞见的观点，促使 Tim 直呼“这就是 AGI！”。马斯克随后在社交平台转发并表示认同。

欧拉恒等式的可视化展示 一位开发者 Dan 询问 Grok 4 最喜爱的数学公式，模型回答 “eiπ+1=0e^{i\pi}+1=0eiπ+1=0”。随后的四轮对话中，Grok 4 以代码与网页的形式构建了可视化演示，帮助这位学过五学期高数却始终未彻悟欧拉恒等式的“数学党”真正理解了该公式的美与内在联系。

SVG 绘图大比拼：视觉与空间推理测试 社区在 Reddit 上发起多模型 SVG 绘图测评：

美国地图重绘：Gemini 2.5 Pro 形状最接近真实地图，但部分州界线略有偏差；Grok 4 Heavy 轮廓准确、无州块重叠，细节略简化；o3 与 Claude 4 多次出现相邻州块重叠或错位。
漫画场景再现：Grok 4 Heavy 能较好还原人物轮廓与对话框位置，但背景细节略缺；o3 线条扭曲、对话框缺失或位置错误；Gemini / Claude 4 在色块与线条连接处出现断裂或偏移。
专辑封面原创设计（纯 SVG）：Grok 4 Heavy 风格简洁、结构合理，渲染正确；Gemini 2.5 Pro / Claude 4 创意更抽象，但局部坐标与尺寸偏离；o3 布局松散、元素重叠，整体观感一般。

五、写在最后

Grok 4 的发布，标志着多代理架构与多模态工具链结合的人工智能系统，正在向通用人工智能（AGI）稳步迈进。在数学推理、法律逻辑、多语种编程、跨领域知识整合、空间想象与绘图表达等任务中，Grok 4 Heavy 展现出了高度一致性与可解释性，逐步突破了以往大模型“会说不会做”“回答浮于表面”的局限。

然而，当前 Grok 4 系列仍存在不足，最突出的挑战是 调用成本过高，这限制了中小开发者和个人用户的广泛使用。

如果未来 Grok 系列能够在架构上持续优化计算效率、降低推理成本，并在生态层面向开发者开放更多接口与模块，便有望被更大范围地采纳。

这也契合了马斯克所憧憬的愿景——“一个能与人类并肩工作的智能伙伴”，而非仅仅是一个对话机器人。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S15#自选日志