智谱：GLM-5 从擅长编码进化到复杂系统工程和长期智能体任务

技术人生黄勇

发布于 2026-03-11 17:24:34

480

2月12日，智谱AI推出了最新一代大模型GLM-5，一上线，就供不应求。同一天，也公开了训练这一版模型的所有技术细节。

个人感觉不止基础的技术架构上有新的改进，加上吸收了Deepseek的新技术，还在应用方面（编码进一步强化、生成PPT、适应智能体 Agent 的任务、机器翻译、工具调用等等）全面扩展了能力。

图 1：GLM-5、DeepSeek-V3.2、Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2（xhigh）在 8 项智能体、推理和编码基准测试中的结果：: Humanity’s Last Exam、SWE-bench 验证版、SWE-bench 多语言版、Terminal-Bench 2.0、BrowseComp、MCP-Atlas、τ2-Bench、Vending Bench 2.0。

我们推出 GLM-5，这是一款下一代基础模型，旨在将氛围编码范式转变为智能体任务。GLM-5 在之前版本的智能体、推理和编码（ARC）能力基础上，采用 DSA 技术大幅降低训练和推理成本，同时保持长上下文的准确性。

为了推进模型对齐和自主性，我们实施了一种新的异步强化学习基础设施，通过将生成与训练解耦，极大地提高了训练后的效率。此外，我们还提出了新的异步智能体强化学习算法，进一步提升了强化学习的质量，使模型能够更有效地从复杂的长时交互中学习。

通过这些创新，GLM-5 在主要的公开基准测试中取得了最先进的性能。最为关键的是，GLM-5 在实际编码任务中展现出了前所未有的能力，在处理端到端软件工程挑战方面超越了之前的基准。代码、模型及更多信息请访问 https://github.com/zai-org/GLM-5 。

1、简介

追求通用人工智能（AGI）不仅需要扩大模型参数，还需要从根本上重新思考智能的效率和自主改进的架构。随着 GLM-4.5 的发布，我们证明了将智能体、推理和编码（ARC）能力整合到单一的专家模型（MoE）架构中，能够在各种基准测试中取得最先进的成果。

然而，随着大型语言模型（LLMs）从被动的知识库转变为积极的问题解决者，计算成本和在复杂软件工程中的现实世界适应性这双重挑战已成为主要瓶颈。

我们推出 GLM-5，这是我们的下一代旗舰模型，旨在克服这些障碍。GLM-5 在性能和效率方面实现了范式转变，在包括 ArtificialAnalysis.ai、LMArena Text 和 LMArena Code 在内的主要公开排行榜上达到了最先进的水平。

更重要的是，GLM-5 重新定义了现实世界中编程的标准，展现出前所未有的能力，能够处理复杂的端到端软件开发任务，这些任务远远超出了像 SWE-bench 这样的传统静态基准测试的范围。

基准测试结果

图 1 展示了 GLM-5、GLM-4.7、Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2（xhigh）在 8 个智能体、推理和编码基准测试中的表现：Humanity’s Last Exam、SWE-bench Verified 、SWE-bench 多语言版、Terminal-Bench 2.0、BrowseComp 、MCP-Atlas、τ2-Bench 、Vending Bench 2 。

平均而言，GLM-5 相较于我们上一版本 GLM-4.7 有约 20% 的提升，与Claude Opus 4.5 和 GPT-5.2（xhigh）相当，且优于 Gemini 3 Pro。GLM-5 在智能指数 v4.0 中得分 50 分，成为新的开放权重模型的领先者（参见图 2），相比GLM-4.7 的 42 分，提升了 8 分，这得益于其在智能体性能和知识/幻觉方面的改进。

这是开源模型首次在人工智能分析指数 v4.0 中获得 50 分的高分。

图 2：人工分析智能指数 v4.0 包含 10 项评估：GDPval-AA, τ 2-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity’sLast Exam, GPQA Diamond, CritPt.

由加州大学伯克利分校发起的 LMArena 是一个透明的共享空间，通过数百万个真实任务（包括写作、编程、推理、设计、搜索和创作）以人类判断来评估和比较前沿人工智能的能力。大量的人机交互产生了真实世界实用性的信号，这使其有别于其他静态基准测试。

图 3 显示，GLM-5 在 Text Arena 和 Code Arena 再次成为排名第一的开源模型，总体上与 Claude-Opus-4.5 和 Gemini-3-pro相当。

图 3：在 LMArena 上，GLM-5 在 Text Arena 和 Code Arena 中均位列第一。

长期一致性在智能体中变得越来越重要。如今，编码智能体能够自主编写代码数小时，而人工智能模型能够完成的任务的长度和广度可能会进一步增加。

我们使用两个基准测试，即 Vending-Bench 2 和 CC-Bench-V2，来评估 GLM-5 完成长期任务的能力。Vending-Bench 2 是一个用于衡量人工智能模型在长时间范围内经营业务表现的基准测试。模型的任务是在一年的时间内经营一个模拟的自动售货机业务，并根据其期末银行账户余额进行评分。

图 4（左）显示，GLM-5 在所有开源模型中排名第一，最终账户余额为 4432 美元。它接近 Claude Opus 4.5，展现出强大的长期能力。

图 4：若干长时序任务的结果。左：Vending-Bench 2；右：CC-Bench-V2。

规划与资源管理

图 4（右）进一步展示了在我们内部评估套件 CC-Bench-V2 上的结果。GLM-5 在前端、后端和长时任务方面显著优于 GLM-4.7，缩小了与 Claude Opus 4.5 的差距。

方法

图 5 展示了 GLM-5 的整体训练流程。我们的基础模型训练始于一个庞大的 27 万亿标记语料库，早期优先处理代码和推理。

随后，我们采用了一个独特的中期训练阶段，逐步将上下文长度从 4K 延长至 200K，特别关注长上下文智能体数据，以确保在复杂工作流程中的稳定性。

在后期训练中，我们超越了标准的有监督微调。我们实施了一个顺序的强化学习流程——从推理强化学习开始，接着是智能体强化学习，最后是通用强化学习。

至关重要的是，我们在此过程中始终使用了基于策略的跨阶段蒸馏，以防止灾难性遗忘，确保模型在成为强大通用型模型的同时，仍保持敏锐的推理能力。

总之，GLM-5 性能的飞跃得益于以下技术贡献：

首先，我们采用 DSA（DeepSeek 稀疏注意力），这是一种新颖的架构创新，能显著降低训练和推理成本。虽然 GLM-4.5 通过标准的 MoE 架构提高了效率，但 DSA 使 GLM-5 能够根据标记的重要性动态分配注意力资源，在不损害长上下文理解和推理深度的情况下大幅降低计算开销。借助 DSA，我们将模型参数规模扩大到 7440 亿，并将训练标记预算扩展到 28.5 万亿个标记。

其次，我们设计了一种新的异步强化学习基础设施。该基础设施基于“slime”框架以及在 GLM-4.5 中初始化的解耦式滚动引擎，进一步将生成与训练过程解耦，以最大限度地提高 GPU 利用率。该系统能够大规模探索智能体的轨迹，消除了此前阻碍迭代速度的同步瓶颈，显著提升了我们强化学习后训练流程的效率。

图 5：GLM-5 的整体训练流程。

第三，我们提出了新颖的异步智能体强化学习算法，旨在提升自主决策的质量。在 GLM-4.5 中，我们利用迭代自蒸馏和结果监督来训练智能体。

对于 GLM-5，我们开发了异步算法，使模型能够从多样化的长时交互中持续学习。这些算法经过专门优化，以增强模型在动态环境中的规划和自我校正能力，直接助力我们在真实世界的编程场景中占据优势。

最后，还有一个技术贡献在于，从一开始，GLM-5 就全面适配了国产的 GPU 生态系统。我们成功地在包括华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、壁仞和天数智芯在内的七家主流国产芯片平台上完成了从底层内核到上层推理框架的深度优化。

凭借这些进步，GLM-5 不仅是一个更强大的模型，更是下一代人工智能智能体更高效、更实用的基础。我们向社区发布 GLM-5，以进一步推进高效、具身通用智能的前沿发展。

2、预训练

与 GLM-4.5 类似，GLM-5 的基础模型也经历了两个阶段：通用语言和编码能力的预训练，以及智能体能力和长上下文能力的中期训练。我们为 GLM-5 的所有训练阶段都增加了训练标记预算，基础模型的总训练标记数达到 28.5 万亿个。

2.1 架构模型规模扩展

GLM-5 扩展至 256 个专家，并将层数减少至 80 层，以尽量减少专家并行通信开销。这使得模型参数量达到 7440 亿（其中 400 亿为活跃参数），是 GLM-4.5 总参数量（3550 亿，其中 320 亿为活跃参数）的两倍。多潜在注意力。

通过采用简化的键值向量，多潜在注意力（MLA）在效果上与分组查询注意力（GQA）相当，但能节省更多的 GPU 内存，并且在处理长上下文序列时速度更快。然而，在我们使用 Muon 优化器进行的实验中，我们发现具有 576 维潜在 KV 缓存的 MLA 无法达到具有 8 个查询组的 GQA（记为 GQA-8，2048- ）的性能。

表 1：GQA-8 和 MLA 变体的评估结果。

为克服性能差距，我们对 GLM-4.5 中的 Muon 优化器方案进行了调整。在原方案中，我们对多头查询、键和值的上投影矩阵 W UQ、W UK、W UV 进行矩阵正交化处理。

而在此方案中，我们将这些矩阵拆分为不同头的较小矩阵，并对这些独立矩阵进行矩阵正交化处理。该方法称为 Muon Split，它使不同注意力头的投影权重能够以不同的尺度进行更新。

如表 1 所示，该方法有效地提升了 MLA 的性能，使其与 GQA-8 相当。在实践中，我们还发现采用 Muon Split 后，GLM-5 在预训练期间的注意力对数尺度保持稳定，无需任何裁剪策略。

MLA 的另一个缺点是在解码过程中的计算成本较高。在解码过程中，MLA 执行的是 576 维的点积运算，高于 GQA 的 128 维计算。虽然 DeepSeek-V3 中的注意力头数量是根据 H800 的屋顶线来选择的，但对于其他硬件来说并不合适。

鉴于 MLA 在训练和预填充阶段采用的是多头注意力（MHA）风格，我们将头维度从 192 增加到 256，并将注意力头的数量减少三分之一。这样在保持训练计算量和参数数量不变的情况下，降低了解码计算量。该变体在表 1 中被标记为 MLA-256，在 Muon Split 下的性能与 MLA 相当。

多标记预测中的参数共享

多标记预测（MTP）提高了每表的长度，基础模型的性能，并作为推测解码的草图模型。然而，在训练期间，为了要预测接下来的 n 个标记，就需要 n 个 MTP 层。因此，MTP 参数和 kv 缓存的内存使用量会随着推测步骤数量的增加而线性增长。

相反，DeepSeek-V3 是使用单个 MTP进行训练的。DeepSeek-V3.2 和 GLM-5.0 的2.552.76模型接受长度DeepSeek-V3.2 GLM-5该层在推理过程中预测接下来的 2 个标记。训练与推理之间的差异降低了第二个标记的接受率。因此，我们建议在训练过程中共享 3 个 MTP 层的参数。这使得草稿模型的内存成本与 DeepSeek-V3 保持一致，同时提高了接受率。

在表 2 中，我们展示了在相同的推测步数（4 步）下，我们的私有提示集中的 GLM-5 的接受长度比 DeepSeek-V3.2 更长。

表 2：DeepSeek-V3.2 和 GLM-5.0 接受长度的比较

Model	Accept Length
DeepSeek-V3.2	2.55
GLM-5	2.76

2.1.1 利用 DeepSeek 稀疏注意力（DSA）进行持续预训练

表3：MLA 和 DSA 基础模型在长上下文基准测试中的比较。

训练中使用 DSA

DSA 的核心理念在于用动态、精细的筛选机制取代传统的密集 O（L²）注意力机制，因为后者在处理 128K 上下文时成本过高。与固定模式（如滑动窗口）不同，DSA 会“查看”内容以决定哪些标记是重要的。从研究者的角度来看，DSA 的特别之处在于它是通过从密集基础模型进行持续预训练引入的，这避免了从头开始训练的“天文数字”般的成本。这一转变遵循了“密集预热和稀疏训练适应”的两阶段策略。

DeepSeek-V3.2-Exp 保持与密集型前代产品具有相同的基准性能，这证明了在长上下文中 90% 的注意力项确实多余。DSA 可将长序列的注意力计算量减少约 1.5 至 2 倍，这对于我们正在构建的推理密集型智能体来说非常重要，能够在 GPU 成本减半的情况下处理 128K 上下文。

DSA 训练从中期训练结束时的基础模型开始。预热阶段经过 1000 步，每步训练 14 个序列，每个序列包含 202,752 个标记，最大学习率为 5e-3。稀疏适应阶段遵循中期训练的训练数据和超参数，经过200 亿个标记。尽管训练预算远小于 DeepSeek-V3.2（9437 亿个标记），但我们发现这足以使 DSA 模型的性能与原始 MLA 模型相匹配。

如表 3 所示，DSA 模型的长上下文性能接近 MLA 模型。为了进一步验证 DSA 训练的有效性，我们分别使用相同的 SFT 数据对 DSA 和 MLA 模型进行微调，发现两个模型在训练损失和评估基准上持平。

图 6：MLA 和 DSA 训练的 SFT 损失曲线比较。结果通过窗口大小为 50 的滑动平均进行了平滑处理。

2.1.2 高效注意力变体的消融研究

除了 DSA 之外，我们基于 GLM-9B1 探索了几种替代的高效注意力机制。基准模型在所有 40 层中采用了分组查询注意力，并使用 128K 个标记的上下文窗口进行了微调。我们评估了以下方法：

滑动窗口注意力（SWA）交错：在整个网络中均匀应用的固定交替模式，即全注意力层和窗口注意力层交替出现。
门控 DeltaNet（GDN）：一种线性注意力变体，它用门控线性递归替换了二次 softmax 注意力计算，将注意力的计算成本从序列长度的二次降低到了线性。

在此基础上，我们提出两项改进措施：

基于搜索的 SWA 模式：受 PostNAS 的启发，我们引入了一种基于搜索的自适应方法，该方法在保留其余层的全注意力机制的同时，确定用于 SWA 转换的最佳层子集。我们采用束搜索策略来确定在长上下文下游任务中性能最优的配置。为降低计算成本，我们仅在 16K 上下文长度下进行搜索，并将所得模式推广到所有其他输入长度。具体而言，我们使用束大小为 8，每步优化两层；对于 GLM-9B（40 层），该过程大约在 10 步内收敛。在每一步中，候选模式在 16K 上下文长度的 RULER 基准测试上进行评估，保留前 8 名候选者进入下一步。最终得出的模式为SFSSFFSSSFFFFSSFSFFFFFFSFSFSSFSSFSFSSFSSS，其中 S 和 F 分别表示 SWA 层和全注意力层。如表 4 所示，这种基于搜索的配置显著优于固定的交错方法。值得注意的是，尽管仅在 16K上进行了优化，该模式展现出强大的长度泛化能力，在所有测试的上下文长度中均能保持有效。
SimpleGDN：一种极简线性化策略，旨在最大程度地复用预训练权重，对 GDN 进行改进以适应持续训练。我们完全移除了 Conv1d 和显式门控模块，转而直接将预训练的查询、键和值投影权重映射到线性递归公式中。这种简化消除了对额外参数的需求，同时保留了线性注意力的效率优势。

表 4：GLM-9B 基线模型以及两种未进行额外训练的 SWA 变体在 RULER 基准测试中的结果。两种SWA 方法均采用全注意力层与 SWA 层 1:1 的比例，窗口大小为 4096 个标记。基于搜索的 SWA 模式在16k 上下文长度时发现一次，并均匀应用于所有输入长度。

我们在四个长上下文基准上评估了所有方法：RULER 、MRCR2、HELMET-ICL 和 RepoQA 。结果总结在表 5 中。我们持续在每个方法上使用 1900 亿个标记进行训练，上下文长度为 64K，保持高效注意力层和全注意力层 1:1 的比例。对于 GDN 和 SimpleGDN 方法，我们遵循 Jet-Nemotron 的流程。

表 5：长上下文基准测试结果。所有高效注意力变体均从 GLM-9B 全注意力基线模型开始持续训练。SWA 模式表示基于搜索的层选择；SWA 交错表示固定的交替模式。∆@64K 和 ∆@128K 分别表示在64K 和 128K 上下文长度时相对于全注意力基线的差异。

表 5 中的结果揭示了高效注意力方法之间存在明显的权衡层级。

简单交错的滑动窗口注意力（SWA）在长上下文任务（例如在 RULER@128K 上为 -30.35）上会导致灾难性的性能下降，而基于搜索的层选择通过在关键位置保留全注意力，大大缩小了这一差距。线性注意力变体（如GDN）进一步提高了质量，但代价是增加了参数；SimpleGDN 通过最大限度地复用预训练权重实现了最佳平衡。

然而，所有这些方法在细粒度检索任务上都存在固有的准确率差距——在 RULER@128K 上高达 5.69 分，在 RepoQA@128K 上高达 7.33 分——这是由于在持续训练适应过程中，高效注意力机制不可避免地引入了信息损失，即使有一半的层保留了全注意力。相比之下，DSA 从设计上就是无损的：其闪电索引器实现了标记级稀疏性，同时不丢弃任何长距离依赖关系，从而能够在所有层中应用而不会导致质量下降。

为验证这一点，我们在具有多潜在注意力的 GLM-4.7-Flash3 上进行了一项小型 DSA 实验。按照标准的 DSA 流程，训练分为两个阶段：（i）预热阶段，仅训练索引器 1000 步（批处理大小 16），同时冻结所有基础模型的权重；（ii）联合训练阶段，模型和索引器共同在 1500 亿个标记上进行训练。

表 6 总结了在 RULER 上不同上下文长度（从 4K 到 128K）的结果。即使仅进行预热阶段的变体（GLM-4.7-Flash + DSA 预热）也已保留了绝大部分的基线性能；性能下降幅度较小，且主要集中在最长的上下文窗口（128K：79.21 → 71.35），而较短的上下文几乎未受影响。在完成全部 1500 亿个标记的训练后在联合训练阶段，GLM-4.7-Flash + DSA 几乎消除了所有剩余差距：在 16K 时超越了基线（+0.86），在 32K 时（+0.49）和 64K 时（+1.72）也是如此，而在 128K 时仅落后 0.35 个点。

表 6：GLM-4.7-Flash 采用 DSA 的 RULER 基准测试结果。仅预热变体仅训练索引器，同时保持基础模型不变，而完整的 DSA 变体则联合训练两者，训练量为 1500 亿个标记。

2.2 预训练数据网络

在 GLM-4.5 数据管道的基础上，我们优化了大规模网络数据集的选择标准。我们引入了另一个基于句子嵌入的 DCLM 分类器，以识别并聚合超出标准分类器范围的更多高质量数据。为应对长尾知识的挑战，我们利用了一个通过维基百科条目和 LLM 标注数据优化的世界知识分类器，从原本质量中低的数据中提炼出有价值的信息。

代码

我们通过从主要代码托管平台获取更新的快照以及收集更多包含代码的网页，扩充了代码预训练语料库，使模糊去重后的唯一标记增加了 28%。为了提高语料库的完整性并减少噪声，我们修复了软件遗产代码文件中的元数据对齐问题，并采用更准确的语言分类流程。

我们遵循GLM-4.5 对源代码和与代码相关的网页文档的质量感知采样策略。此外，我们还为更多低资源编程语言（例如 Scala、Swift、Lua 等）训练了专用分类器，从而提高了这些语言的采样质量。

数学与科学

我们从网页、书籍和论文中收集高质量的数学与科学数据，以进一步提升推理能力。具体而言，我们对网页的内容提取流程以及书籍和论文的 PDF 解析机制进行了优化，以提高数据质量。我们采用大型语言模型对候选文档进行评分，并仅保留最具教育价值的内容。

对于长篇文档，我们开发了一种分块聚合评分算法，以提高评分的准确性。我们还设置了严格的过滤流程，以避免使用合成的、人工智能生成的或基于模板的数据。

2.3 训练中期

在 GLM-4.5 引入的中期训练框架基础上，我们在 GLM-5 中扩大了训练数据量，并增加了最大上下文长度，以进一步增强模型的推理、长上下文处理和智能体能力。

扩展上下文和训练规模

我们分三个阶段逐步扩大上下文窗口：32K（1 万亿个标记）、128K（5000 亿个标记）和 200K（500 亿个标记）。与 GLM-4.5 的 128K 最大值相比，新增的 200K阶段显著提升了模型处理超长文档和复杂多文件代码库的能力。在后续阶段，长文档和合成智能体轨迹也相应地进行了上采样。

软件工程数据

我们保留将仓库级别的代码文件、提交差异、GitHub 问题、拉取请求以及相关源文件拼接成统一训练序列的范式。在 GLM-5 中，我们放宽了仓库级别的筛选标准，以扩大符合条件的仓库池，从而获得约 1000 万对问题 - 拉取请求，同时在单个问题级别加强质量筛选以减少噪声。

我们还为每个问题 - 拉取请求对检索了更大一组相关文件，从而形成更丰富的开发上下文，并更广泛地涵盖现实世界中的软件工程场景。经过筛选，数据集中的问题 - 拉取请求部分包含约 1600 亿个唯一标记。

长上下文数据

我们的长上下文训练集包含自然数据和合成数据。自然数据是从书籍、学术论文和通用预训练语料库中的文档中经过多阶段筛选（PPL、去重、长度）并增加知识密集型领域的数据量而整理出来的。在合成数据构建方面，受 NextLong 和 EntropyLong 的启发，我们采用了多种技术来建立长距离依赖关系。通过交错打包高度相似的文本以生成序列，旨在缓解中间信息丢失的现象，并在一系列长上下文任务中提升性能。在 20 万阶段，我们还加入了一小部分类似 MRCR 的数据，设计了多种变体以扩展 OpenAI 的原始范式，以增强在扩展多轮对话中的召回率。

从经验上看，我们发现增加数据多样性会逐步提升模型的长上下文性能；值得注意的是，在最初的 12.8 万阶段之后，后续的 20 万中期训练阶段进一步提升了模型在 12.8 万上下文窗口内的性能。

2.4 训练的基础设施

2.4.1 内存效率

灵活的 MTP 安置

在交错流水线并行机制下，模型组件可灵活分配到各个阶段。MTP模块涵盖嵌入、转换器和输出组件。其内存使用量远高于其他模块，导致了阶段级的不平衡。我们将 MTP 的输出层与主输出层共同置于最后阶段，以实现参数共享，同时将其嵌入和转换器组件置于前一阶段。这减轻了最后阶段的内存压力，并改善了流水线各节点之间的平衡。

管道 ZeRO2 梯度分片

每个管道秩维护多个阶段，如果按照常规做法，每个阶段都需要一个完整的梯度缓冲区来进行累积和优化器更新。受 ZeRO2 的启发，我们在数据并行秩之间分片梯度，这样每个阶段只需存储完整梯度的 1/dp 部分。此外，我们仅同时保留两个阶段的完整累积缓冲区，并通过双缓冲机制进行复用。当一个阶段缓冲区在连续的微批次上累积梯度时，前一个阶段缓冲区的梯度同步操作会并行执行。这将持久梯度内存减少到每个阶段的分片缓冲区加上仅用于滚动累积的两个完整缓冲区，且在实践中没有额外的同步开销。

针对 Muon 分布式优化器的零冗余通信。朴素的 Muon 实现会在每个数据并行等级上收集完整的模型参数，导致内存瞬时峰值和冗余通信。我们将 all-gather 操作限制在每个等级所拥有的参数分片上，并将本地计算与分片通信重叠进行。这消除了冗余通信，并显著降低了与优化器相关的峰值内存开销。

管道激活卸载

在管道预热期间，前向执行会领先于反向传播，从而延长中间激活值的生命周期。我们在前向执行后将激活值卸载到主机内存，并在反向执行前重新加载它们。以层为粒度进行卸载，进一步降低了峰值内存使用量。结合细粒度的重新计算，这在很大程度上消除了在 GPU 内存中保留激活值的需求。卸载和重新加载被安排与计算重叠，同时避免与对等通信和 MoE 令牌路由（分发和组合）发生冲突。这极大地减少了激活值的内存占用，且几乎不会产生额外开销。

为减少峰值内存使用量而采用的序列分块输出投影。输出投影和交叉熵损失在存储用于反向传播的激活值以及在损失计算期间提升其精度时会产生瞬时内存开销。为降低此开销，我们将输入序列分割成更小的块，并在每个块上独立计算投影和损失，在完成前向和反向传播并释放激活值后再继续处理下一个块。因此，随着块数的增加，峰值内存使用量会减少。通过选择合适的块数，这种方法在保持与未分块执行相当的性能的同时，减轻了输出层的内存压力。

2.4.2 并行效率

高效的延迟权重梯度计算

为减少流水线气泡，我们延迟计算关键路径上的一些权重梯度。通过优化存储和通信重叠的细粒度延迟，提高了吞吐量，同时将内存开销控制在一定范围内。

高效的长序列训练

较长的序列会加剧数据并行和流水线并行组之间的负载不均衡。我们通过工作负载感知的序列重排序、注意力计算的动态重新分配以及灵活地将数据并行秩划分为不同大小的上下文并行组来解决此问题。分层的全对全通信在节点内和节点间重叠 QKV 张量的通信以减少延迟。

3、训练后

GLM-5 的训练后阶段旨在将基础模型转变为具备强大推理、编码和智能体能力的高效助手。如图5 所示，我们的流程遵循渐进式对齐策略：首先进行多任务监督微调（SFT），引入复杂的交错思维模式，接着是针对推理和智能体任务的专门强化学习（RL）阶段，最后是用于实现人类风格对齐的通用 RL 阶段。通过利用跨阶段的在策略蒸馏作为最终的优化手段，GLM-5 有效避免了能力退化，同时充分利用了每个训练阶段带来的性能提升。

3.1 监督微调

与 GLM-4.5 相比，GLM-5 在 SFT 阶段显著扩大了智能体和编码数据的规模。GLM-5 的 SFT 数据集涵盖三大类：

通用聊天：问答、写作、角色扮演、翻译、多轮对话以及长篇语境交互；
推理：数学推理、编程推理和科学推理；
编码与智能体：前端和后端工程代码、工具调用、编码智能体、搜索智能体和通用智能体。

图 7：交错思维与保留思维的示意图。

此外，GLM-5 在微调期间将最大上下文长度扩展到了 202,752 个标记。结合更新后的聊天模板，该模型支持三种不同的思维特征（见图 7），包括：

交错思维：模型在每次响应和工具调用前都会进行思考，从而提高指令遵循度和生成内容的质量。
保留思维：在编码智能体场景中，模型会自动保存多轮对话中的所有思维模块，在需要时重复使用已有的推理过程，而不是从头开始重新推导。这减少了信息丢失和不一致的情况，非常适合长期、复杂的任务。
回合级思考：该模型支持在会话中按回合控制推理过程——对于轻量级请求可禁用思考以降低延迟/成本，对于复杂任务则启用以提高准确性和稳定性。

通过在行动之间进行思考并保持各轮次之间的一致性，GLM-5 在复杂任务中实现了更稳定和可控的行为。

对于通用聊天，我们优化了响应风格，使其相较于 GLM-4.5 更具逻辑性和简洁性。对于角色扮演任务，我们收集并构建了一个涵盖多种语言和角色配置的更广泛、更多样化的数据集。特别是，我们定义了几个评估维度——包括指令遵循、语言表达能力、创造力、逻辑连贯性和长对话一致性——并采用自动和人工筛选相结合的方式对数据进行整理和优化。

对于推理任务，我们进一步增强了模型推理的深度。具体而言，在逻辑推理方面，我们构建可验证的问题，并通过拒绝采样合成高质量的数据。对于数学和科学问题，则采用基于难度的筛选过程，仅保留对 GLM-4.7 模型具有挑战性的问题。

对于编码和智能体任务，与 GLM-4.5 相比，GLM-5 构建了大量执行环境以获取高质量的轨迹，尤其注重现实场景和长时任务。我们进一步利用专家强化学习和拒绝采样改进了 SFT 数据。轨迹中的错误片段被保留但会在损失函数中被屏蔽，从而使模型能够学习错误纠正行为而不强化错误动作。

3.2 推理强化学习

强化学习算法骨干

我们的强化学习算法基于 GRPO 并引入了 IcePop 技术来缓解训练与推理之间的不匹配问题，即在强化学习优化过程中推理分布与训练分布之间的差异。我们明确区分了用于梯度更新的训练策略 πtrain 和用于轨迹采样的推理策略 πinfer。与原始的IcePop 表达式相比，我们去掉了 KL 正则化项以加快强化学习的改进。最终的优化损失为：

其中训练 - 推理不匹配率定义为：

操作符 pop（·）会抑制那些失配率偏差过大的样本：

PPO 风格的重要性比率和组归一化优势遵循原始 GRPO 定义：

在训练过程中，我们设置超参数 β = 2，εlow = 0.2，εhigh = 0.28。训练完全基于策略进行，组大小为 32，批处理大小为 32。

基于 DSA 架构的模型进行大规模强化学习训练的见解

与 MLA 相比，DSA 引入了一个额外的索引器，该索引器检索出最相关的前 k 个键值条目，并在检索到的子集上稀疏计算注意力。检索到的前 k 个结果对于强化学习的稳定性至关重要。这类似于 MoE 模型使用路由重放来保留激活的前 k 个专家以确保训练和推理的一致性。

然而，在每个标记位置存储索引器的前 k 个索引显然是不切实际的，因为索引器使用的 k = 2048 远大于 MoE 通常使用的 k 值，存储所有这些索引会带来巨大的存储成本以及训练引擎和推理引擎之间的显著通信开销。

我们发现采用确定性的 top-k 操作符能有效解决这一问题。与 SGLang 的 DSA 索引器中使用的非确定性 CUDA 基础 top-k 实现相比，直接使用简单的 torch.topk 虽然速度稍慢，但具有确定性。它能产生更一致的输出，并带来显著的强化学习收益。

相比之下，其他非确定性的 top-k 操作符（例如CUDA 或 TileLang 实现）在强化学习过程中仅几步之后就会导致性能急剧下降，同时熵值大幅降低。因此，在我们的强化学习阶段，我们在训练引擎的 DSA 索引器中默认使用 torch.topk 作为 top-k 操作符。

此外，我们默认在强化学习期间冻结索引器参数，以加快训练速度并防止索引器学习不稳定。

混合领域推理强化学习

在推理强化学习阶段，我们在四个领域进行混合强化学习训练：数学、科学、代码和工具集成推理（TIR）。对于数学和科学，我们从开源数据集以及与外部标注供应商共同开发的集合中整理数据。我们进一步应用难度筛选，将训练重点放在 GLM-4.7 很少能正确解决或始终无法解决，但更强的教师模型（例如 GPT-5.2 xhigh 和 Gemini 3 Pro Preview）仍能解决的问题上。

对于代码，我们涵盖竞赛编程风格的任务和科学编程任务。前者主要来自Codeforces 和具有代表性的数据集，如 TACO和 SYNTHETIC-2-RL，而后者则通过将问题分解为正确解决方案所需的最小代码实现，从内部问题池构建。对于 TIR，我们复用数学和科学强化学习数据中更具挑战性的子集，并与标注供应商共同构建明确设计为需要借助外部工具才能回答的 STEM 问题。

在强化学习训练期间，我们为每个领域和来源分配特定的评判模型或评估系统，以生成二元结果奖励。我们保持四个领域中的总体混合比例大致平衡，并且在混合强化学习设置下，持续观察到每个领域都有稳定且显著的提升。

3.3 智能体强化学习

为了促进 GLM-5 的智能体性能，我们开发了一个完全异步且解耦的强化学习框架，并在编码和搜索智能体任务中对 GLM-5 进行优化。在长时序智能体展开过程中，简单的同步强化学习会导致 GPU 出现严重的空闲时间。通过使用中央多任务展开协调器将推理和训练引擎解耦，我们实现了在各种智能体工作负载上的高吞吐量联合训练。

为了在异步离策略条件下保持训练的稳定性，我们引入了两个关键机制。首先，采用“令牌输入令牌输出”（TITO）网关，通过保持精确的动作级对应关系来消除重新标记的不匹配问题。其次，我们采用直接双向重要性机制。

采样应用了一种标记级裁剪机制（将展开的对数概率裁剪在 [1−ε ℓ， 1+ε h]) 范围内），同时高效地控制了离策略偏差，而无需跟踪历史策略检查点。我们还采用了一种 DP 感知路由，在大规模 MoE 模型的长上下文推理期间最大限度地重复使用 KV 缓存以加快速度。为了扩展智能体环境，我们在三个领域扩展了可验证的训练环境：超过 10K 个真实世界的软件工程（SWE）、终端任务和高难度多跳搜索任务。关于智能体强化学习的更多细节可在后续的第 4节中找到。

3.4 通用强化学习

多维优化目标

我们将通用强化学习的优化目标分解为三个互补的维度：基础正确性、情商和任务特定质量。

基础正确性维度是响应质量的基石

它针对的是影响模型输出可用性的各种错误类型，包括未遵循指令、逻辑不一致、事实错误、知识幻觉和语言不流畅。目标是将错误率降至最低，使响应达到可用的基准。我们认为这是所有后续优化的前提条件：一个包含事实错误或误解用户意图的响应，无论其表面多么完美，都可能误导用户。

情感智能维度优化了用户体验，超越了核心正确性。其目标是生成富有同理心、见解深刻且风格贴近自然人类交流的回应，使与模型的互动更自然、更引人入胜。

任务特定的质量维度旨在针对各种具体任务进行精细化优化。在基础正确性所确立的可用性基础上，它致力于将每个任务类别的响应从仅仅正确提升到真正高质量。这一维度涵盖了广泛的任务，包括写作、文本处理、主观和客观问题回答、角色扮演以及翻译。每个任务领域都需要不同的奖励信号，因此需要一个混合奖励系统。

混合奖励系统

为了监督上述各种目标，我们构建了一个混合奖励系统，该系统整合了三种互补类型的奖励信号：基于规则的奖励函数、结果奖励模型（ORM）和生成式奖励模型（GRM）。每种类型都有其独特的优缺点，它们的结合对于稳定、高效且可扩展的通用强化学习训练过程至关重要。

基于规则的奖励机制能提供精确且可解释的信号，但仅限于能用确定性规则表达的方面。基于优化的奖励机制能提供低方差信号和高训练效率，但更容易受到奖励操纵的影响，即策略会利用表面模式而非真正提升核心能力。基于生成的奖励机制利用语言模型生成标量或结构化评估，对这种操纵更具抵抗力，但往往方差较高。通过融合这三种信号类型，我们获得了一个在精确性、效率和稳健性之间取得平衡的奖励系统，从而减轻了任何单一组件的弱点。

人机交互式风格对齐

我们通用强化学习流程的一个显著特点是明确纳入了高质量的人工撰写回复。我们并非仅仅依赖模型生成的回复，而是引入专家的人工回复作为风格和质量的参照。这一做法的动机在于，纯模型生成的优化往往会趋向于明显的“模型式”模式——通常冗长、公式化，或者缺乏熟练人类写作的细微之处。通过让模型接触人工撰写的范例，我们鼓励其采用更自然、更符合人类风格的回复模式。

3.5 策略内跨阶段知识蒸馏

在我们的多阶段强化学习流程中，依次针对不同的目标进行优化可能会导致先前获得的能力逐渐退化。为解决这一问题，我们在最后阶段执行基于策略的跨阶段知识蒸馏，采用基于策略的知识蒸馏算法，以快速恢复在早期的有监督微调（SFT）和强化学习阶段（推理强化学习和通用强化学习）中获得的技能。

具体而言，前一训练阶段的最终检查点充当教师模型，其中13训练提示是从相应教师的强化学习训练集中抽取，并按适当比例混合的。通过将公式 1 中的优势项替换为以下公式，即可获得训练损失（“sg”表示停止梯度操作，例如 .detach（））：

目前，我们使用推理引擎获取教师模型的对数几率。未来，我们计划将推理后端迁移到训练引擎，并统一采用 MLA 的多查询注意力（MQA）模式进行推理（πθinfer teacher→πθtrain teacher）。在训练过程中，GRPO 算法的组大小配置为 1 以提高数据吞吐量，批处理大小设置为 1024。

现阶段这样做是可行的，因为不再需要为每个提示保留大量样本以估计优势；优势可直接从与教师模型的差距中计算得出。

3.6 RL 训练基础设施：slime 框架

我们继续将 slime 用作 GLM-5 统一的后训练基础设施，从而实现大规模端到端强化学习（RL）。GLM-5 并未引入新的系统组件，而是充分利用 slime 的能力，

（1）通过自由形式的回滚定制和基于服务器的执行模型来扩大任务覆盖范围，

（2）通过混合精度训练/回滚以及 MTP 和预填充-解码（PD）分离，特别是对于多轮 RL 工作负载，大幅提高吞吐量，

（3）通过心跳驱动的回滚容错和路由器级服务器生命周期管理来提高鲁棒性。

3.6.1 横向扩展：通过高度可定制的部署实现灵活训练

GLM-5 的训练后阶段涵盖了多种多样的目标。为了在不使用特定任务分支的情况下支持这种多样性，GLM-5 利用了 slime 高度可定制的部署界面以及基于服务器的部署执行功能。

高度可定制的部署

slime 提供了一个灵活的接口，用于实现特定任务的部署逻辑，包括多轮交互循环、工具调用、环境反馈处理以及验证器引导的分支选择，而无需修改底层基础设施。GLM-5 利用这一能力支持广泛的领域和训练范式，包括但不限于推理强化学习、通用强化学习、智能体强化学习和策略内蒸馏，所有这些都在一个统一的训练堆栈中实现。

基于服务器的 HTTP API 滚动部署

slime 通过标准的 HTTP API 公开了其滚动部署服务器和推理路由器，使用户能够以与传统推理引擎相同的方式与 slime 的服务层进行交互。这将滚动部署逻辑与训练过程边界解耦：外部智能体框架和环境可以直接调用服务器/路由器端点，而优化后端对于短时单轮训练和长时多轮轨迹均保持不变。

3.6.2 扩展规模：强化学习策略评估中的尾延迟优化

对于强化学习的策略执行，优化目标并非是总吞吐量，而是端到端的延迟，这主要由每一步中最慢（长尾）的样本所决定。在实际操作中，单个落后的轨迹可能会阻碍同步点（例如批次完成、缓冲区准备就绪、训练器更新），并直接决定实际运行进度。因此，GLM-5 充分利用了slime 的面向延迟的服务和调度机制，以最小化中位延迟，更重要的是，最小化尾部延迟。

通过多节点推理和 DP-注意力机制实现无队列服务以支持 MLA。为避免排队延迟，即使在流量突发的情况下，也必须迅速处理请求，这需要大量的 KV 缓存容量。GLM-5 采用多节点推理部署（例如，在 8 个节点上采用 EP64 和 DP64），以提供足够的分布式 KV 缓存。引入 DP-注意力机制主要是为了防止在不同节点之间复制 KV。

通过 FP8 滚动推理和多令牌预测（MTP）降低尾延迟。GLM-5 在滚动推理中使用 FP8 来减少每令牌延迟，并缩短长轨迹的完成时间。此外，GLM-5 还利用了 Slime 对多令牌预测（MTP）的支持，这在强化学习滚动中常见的小批量解码模式下特别有效。

由于尾延迟通常由小批量大小驱动对于那些拖后腿的情况（例如，罕见的长上下文、复杂的多轮推理、大量使用工具的痕迹），MTP 在长尾部分提供了不成比例的巨大收益，缩短了最慢样本的完成时间，从而减少了步骤级的停滞时间。

在多轮强化学习中，通过 PD 分离来防止预填充与解码的干扰。在多轮设置中，长前缀预填充很常见（如对话历史、工具痕迹、代码上下文）。在 DP 注意力机制下，在相同的服务器资源上同时进行预填充和解码可能会产生严重的干扰：繁重的预填充可能会抢占或中断服务器上正在进行的解码，导致其他样本无法持续进展，并大幅增加尾部延迟。

因此，GLM-5 利用了 Slime 的预填充 - 解码（PD）分离技术。通过在专用资源上运行预填充和解码，解码过程保持稳定且不受干扰，使得长时序样本能够持续进展，并显著改善多轮智能体强化学习中的尾部行为。

3.6.3 部署稳健性：心跳驱动的容错机制

在大规模部署中，瞬时故障（例如单个服务器崩溃、网络问题或性能下降）不可避免。GLM-5 利用 slime 的心跳驱动容错机制来确保在这些事件发生时训练的连续性：部署服务器会定期发出心跳信号，由编排层进行监控，不健康的服务器会被主动终止并从推理路由器中注销。

因此，重试会自动从故障或性能下降的服务器转移到健康的服务器，防止单个服务器的故障中断部署，并保持端到端强化学习训练的不间断。

4、智能体工程

我们描述了从氛围编码（人类提示）到智能体工程的转变。在氛围编码中，人类提示 AI 模型编写代码。而在智能体工程中，AI 智能体自行编写代码。它们进行规划、实施和迭代。为了支持这些长期任务，GLM-5 利用了一个完全异步且解耦的强化学习框架，通过减少智能体执行过程中的空闲时间，显著提高了 GPU 的利用率。

为了扩展智能体环境，我们开发了环境构建流水线。对于编码任务，我们通过创建超过 10,000 个可验证的训练场景来设置现实世界中的软件工程问题和终端任务。对于搜索智能体，我们开发了一个自动且可扩展的复杂多步推理数据合成流水线，以构建用于智能体训练的数据。

4.1 用于智能体任务的异步强化学习

为了针对智能体任务开展强化学习，我们设计了一个完全异步且解耦的强化学习基础设施，能够高效处理长时序智能体的运行，并支持在多种智能体框架下灵活进行多任务强化学习训练。我们采用分组策略优化算法进行强化学习训练。对于每个问题 x，我们从先前的策略 πold 中采样K 个智能体轨迹 {y1， . . . ， yK }，并根据以下目标优化模型 πθwith ：

需要注意的是，只有模型生成的标记用于优化，而在损失计算中忽略环境反馈。

4.1.1 用于智能体训练的异步强化学习设计

由于部署过程具有长尾特性，传统的同步强化学习训练在部署阶段会引入大量空闲时间，这是由于智能体任务的生成严重失衡所致，从而导致 GPU 大量闲置。为了提高训练吞吐量，我们为智能体强化学习采用了一种完全异步的训练范式，以提高 GPU 利用率和训练效率。

具体而言，我们将训练引擎和推理引擎解耦到不同的 GPU 设备上。推理引擎持续生成轨迹。一旦生成的轨迹数量达到一定阈值，当达到预定义的阈值时，该批次将被发送到训练引擎以更新模型。为减少策略滞后并使训练大致保持在策略内，定期将滚动引擎使用的模型权重与训练引擎的权重同步。训练引擎每 K 次梯度更新就更新模型参数并将新权重推送到推理引擎。

虽然异步操作可显著提高整体训练效率，但也意味着不同轨迹可能由不同版本的模型生成，从而引入严重的离策略问题。由于不断变化的滚动策略导致权重更新考虑的是不同的优化问题，因此在每次推理引擎的权重更新后，我们也会重置优化器。

基于服务器的多任务训练设计

为解决多任务强化学习中轨迹生成的异质性问题，即不同任务通常依赖不同的工具集和特定任务的展开逻辑，我们引入了基于服务器的多任务展开协调器用于多任务强化学习训练。该组件旨在通过一个中央协调器和多个注册的任务服务，确保粘液强化学习训练框架与各种下游任务之间的无缝兼容性。

具体而言，每个任务都将其自身的展开和奖励逻辑实现为独立的微服务，并注册到中央协调器进行管理和调度。在展开阶段，中央协调器控制每个任务的展开比例和生成速度，以实现跨任务的数据收集平衡。至关重要的是，我们将所有智能体任务的轨迹标准化为统一的消息列表表示形式。这使得复杂智能体框架（例如软件工程任务）能够进行联合训练，同时也支持对异构工作负载进行集中后处理和日志记录。

此设计将特定任务的逻辑与核心训练循环清晰地分离，从而能够与多任务强化学习训练无缝集成。作为 GLM-5 训练基础设施的骨干，该调度器支持超过 1000 个并发的训练过程，并能够自动、动态地调整任务采样比例，同时实现对任务进度的精细监控。

4.1.2 优化异步训练稳定性

Token-in-Token-out 与 Text-in-Text-out。在强化学习的展开设置中，Token-in-Token-out（TITO）意味着训练流程直接使用推理引擎生成的精确分词和解码后的分词流来构建用于学习的轨迹。相比之下，Text-in-Text-out 将展开引擎视为一个黑箱，该黑箱返回最终的文本；训练器随后通过重新分词该文本（通常还要重新确定边界和截断）来重建轨迹，然后再计算损失。

这一看似微小的选择却意义重大：重新分词可能会在分词边界、空格/规范化处理、截断或特殊标记的位置等方面引入细微的不匹配，进而破坏动作与奖励/优势之间的步骤对齐，尤其是在展开是流式传输、截断或在多个执行者之间交错进行的情况下。

我们发现，token 输入token 输出对于异步强化学习训练至关重要，因为它在保留采样内容与优化内容之间精确的动作级对应关系的同时，使执行器能够立即发出轨迹片段（token ID 和元数据），而无需经过有损的文本往返处理，也无需在学习器端等待后续的重新 token 化。

在实践中，我们实现了一个 TITO 网关，它拦截来自滚动任务的所有生成请求，并记录每个轨迹的token ID 和元数据。这种设计将繁琐的token ID 处理与下游智能体滚动逻辑隔离开来，同时避免了强化学习训练期间的重新 token 化不匹配问题。

用于标记裁剪的直接双向重要性采样

与第 3 节中的同步强化学习训练设置不同，在异步设置中，单个轨迹生成期间，滚动引擎可能会经历多次更新，这使得精确行为概率的跟踪 πθold 计算上不可行。

否则，我们必须维护大量的模型检查点历史记录，这在实际应用中是不可行的。为了解决这个问题，我们首先采用一种简化的基于标记的重要性采样机制，该机制将滚动过程中生成的对数概率直接用作行为智能体。我们消除了单独旧策略推断的开销。

其次，我们采用了一种双侧校准的标记级掩码策略。与标准 PPO 中使用的不对称裁剪不同，我们将信任区域限制在 [1 −εℓ， 1 + εh]]，其中 εℓand 和 εh 是裁剪超参数。落在该区间之外的标记完全从梯度计算中掩码，以防止因策略过度偏离而导致的不稳定。这与 IcePop 机制有相似之处，但我们的策略更简单，进一步去除了 πθold，从而实现了更稳定的训练。

形式上，带有标记级裁剪的优化目标可以写成：

在这个公式中，重要性抽样比率 rt(θ) 计算方式为：

稳定性通过校准函数 f（x； εℓ， εh):）进一步得到加强

在实验中，我们发现重用策略评估日志概率可以接受一定程度的离策略偏差，从而避免了对历史策略进行追踪的需求，同时提高了训练的稳定性。

丢弃离策略和有噪声的样本

在异步强化学习中，过长的轨迹可能会变得严重偏离策略，这可能会使训练不稳定。为了过滤掉这些严重偏离策略的样本，我们在生成时记录了用于生成轨迹的策略权重版本。具体来说，对于每个响应，我们记录所涉及的模型版本序列（w0，...， wk，其中 w0 < ··· < wk）。设 w′ 表示当前策略版本。如果样本中最旧的生成版本过时，即 w′−w0 > τ（其中 τ 是预定义的阈值），则丢弃该样本。这会移除那些与当前策略差距过大的轨迹。

此外，编码智能体沙盒可能本身就不稳定，可能会因与模型无关的原因（例如环境崩溃）而失败。此类故障会引入噪声训练信号，因为它们反映的是环境的不稳定，而非模型的能力。为减轻这种情况，我们记录每个样本的失败原因，并排除因环境崩溃而失败的样本。

对于像 GRPO 这样的基于组的采样方法，移除失败样本可能会导致组不完整。在这种情况下，如果有效样本的数量超过组大小的一半，我们通过重复有效样本来填充组；否则，我们丢弃整个组。此过程减少了虚假奖励噪声，并提高了训练的稳定性。

面向加速的数据并行感知路由

我们提出了一种数据并行感知路由机制，以在大规模 MoE 推理中保持 KV 缓存的局部性。在多轮智能体工作负载中，来自同一轮次的连续请求具有相同的前缀。为了最大限度地提高 KV 重用率，我们强制执行轮次级别的亲和性：属于给定智能体实例的所有请求都被路由到相同的 DP 等级。具体而言，我们引入了一个有状态的路由层，使用一致性哈希将每个轮次 ID 映射到固定的 DP 等级。这种映射在各轮次间保持稳定，消除了跨等级的缓存未命中。

为防止长期的负载不均衡，我们在哈希空间上结合了哈希与轻量级的动态负载再平衡。这种设计避免了冗余的预填充计算，且无需在 DP 等级间同步 KV。随着轮次长度的增加，预填充成本与增量标记数成正比，而非与总上下文长度成正比。结果是端到端延迟降低，长上下文智能体推理的有效吞吐量提高。

4.2 智能体的环境扩展

为了支持在各种智能体任务中的强化学习，我们构建了可验证的、可执行的环境，为以代码为中心和内容生成的工作流程提供基于实际的反馈。对于智能体编码任务，我们开发了两条环境构建流水线来构建可验证的可执行环境：一条是基于现实世界软件工程问题的环境设置流水线，另一条是用于终端智能体环境的合成流水线。

除了编码之外，我们还引入了一个幻灯片生成环境，在该环境中，智能体在具有可执行渲染和基于布局的验证的结构化 HTML 上进行操作。

4.2.1 软件工程（SWE）环境

在构建可执行环境之前，我们收集了大量真实世界的“问题-拉取请求（PR）”对，并通过严格的基于规则和基于大型语言模型（LLM）的筛选，确保获取到真实且高质量的问题描述。我们将这些实例分类为不同的任务类型——错误修复、功能实现、代码重构及其他，并包含必要的任务要求以17确保模型的实现与测试补丁保持一致。我们采用基于 RepoLaunch 框架的环境设置流水线，该框架能够从现实世界中的软件工程问题中扩展可执行环境的构建。

此流水线会自动分析存储库的安装和依赖项设置，以构建可执行环境并生成测试命令，然后利用大型语言模型（LLM）从测试输出中生成语言感知的日志解析函数，从而能够提取失败到通过（F2P）和通过到通过（P2P）的测试用例。利用此流水线，我们在涵盖 9 种编程语言（包括 Python、Java、Go、C、CPP、JavaScript、TypeScript、PHP 和 Ruby）的数千个存储库中构建了超过10,000 个可验证的环境。

4.2.2 终端环境从种子数据合成

为了构建大规模可验证的终端智能体环境，我们设计了一个包含三个阶段的智能体数据合成管道：任务草案生成、具体任务实现和迭代任务优化。

从收集自真实世界软件工程和基于终端的计算机使用场景的一组种子任务开始，我们利用大型语言模型（LLM）进行头脑风暴，生成大量可验证的终端任务草案。

然后，一个构建智能体将这些草案实例化为Harbor 格式的具体任务，包括结构化的任务描述、Docker 化的执行环境以及相应的测试脚本。

随后，一个优化智能体根据手动定义的评分标准检查并迭代优化生成的任务，确保Docker 镜像能够可靠构建，测试用例与任务规范一致，并且环境能够抵御潜在的漏洞或捷径。

总体而言，该管道生成了数千个多样且可验证的终端智能体环境，Docker 构建准确率超过 90%。

基于网络语料库的合成

我们开发了一个可扩展的自动化流程，并根据网络语料库构建了经大型语言模型验证的基于终端的编码任务，采用闭环设计，构建智能体同时充当其自身的初步评估者。

首先，我们收集了大量与代码相关的网页语料库，并应用数据质量分类器仅保留高质量内容，丢弃主要为非技术性或缺乏实质性代码内容的网页。从过滤后的子集中，我们进一步识别出适合以终端风格任务形式呈现的网页。

然后，我们在主题类别和难度级别上进行分层抽样，以确保生成的任务池在分布上平衡且多样化。

其次，我们向编码智能体提供 Harbor任务构建规范，包括任务模式、格式要求和示例任务，以及每个选定的源网页。智能体被指示（i）根据网页内容合成一个完整的终端任务，以及（ii）对其自身输出执行 Harbor 验证脚本。在验证失败的情况下，智能体会反复诊断并修正任务，直至其通过所有自动化检查。只有成功通过这一自我验证循环的任务才会被纳入最终的数据集。

4.2.3 搜索任务

对于深度搜索的信息查询任务，我们构建了一个数据合成管道，用于生成具有挑战性的多跳问答对。每个问题都需要基于从多个网络来源聚合的证据进行多步推理。

网络知识图谱（WKG）构建与问题生成

从早期搜索智能体的轨迹开始，我们收集并去重所有遇到的 URL，保留了超过两百万个涵盖不同领域的高信息量网页。大语言模型执行语义解析以进行实体识别、噪声过滤和结构化信息提取。WKG 通过实体对齐、属性规范化、关系整合和语义一致性校正等方式，持续更新新页面并利用下游验证信号进行优化。

基于 WKG，我们选取低频到中频的实体作为种子节点，并扩展其多跳邻域以形成完整的子图，同时控制扩展以减少重叠。通过针对高难度、多领域推理的提示，我们将每个子图转换为隐含编码多实体关系链的问题。

高难度问题筛选与验证

我们采用三阶段流程来平衡难度与正确性：

（1）剔除在八次独立尝试中至少有一次被无工具推理模型正确解答的问题。

（2）过滤掉早期阶段智能体能够解决的问题。

（3）通过双向验证应用验证智能体：我们在第二阶段从搜索轨迹中收集候选答案，然后分别验证候选答案和标注的基准答案与问题的一致性，剔除答案不唯一、证据不一致或标签错误的样本。这样就能得到高质量、高难度且可靠的多跳问答对。

4.2.4 具有上下文管理的搜索智能体推理

我们发现，在 BrowseComp 上的表现对评判提示和评判模型都很敏感，开源评判者可能会引入系统性偏差。为了确保一致性和可重复性，我们将所有基于评判的组件标准化，使用官方OpenAI 评估提示和专有模型 o3-mini 作为评判者。案例研究表明，这种设置最接近人工标注的真实情况，因此我们在所有实验中都采用这种设置。

先前的工作引入了上下文管理，其中“Discard-all”通过移除整个工具调用历史来重置上下文。我们进一步观察到，在极长的上下文（例如超过 10 万个标记）下，模型的准确性会大幅下降。

受此启发，我们采用了简单的“保留最近 k 轮”策略。当交互历史超过阈值 k 时，将最旧的超过最近 k 轮的内容折叠起来以控制上下文长度。设轨迹为（q, r1, a1, o1， r2, a2, o2， ···，rn, an, on），其中 q 表示问题，ri 表示第 i 轮的推理，ai 表示动作（我们设计了搜索、打开、查找和 python 4 种工具），oi 表示工具观察结果。我们仅折叠早于最近 k 轮的观察结果：oi ← 工具结果被省略以节省标记。i = 1, . . . ， n - k。

在我们的实验中，我们设置 k = 5，这带来了稳定的改进，使 GLM-5 从 55.3%（不使用“保留最近 k 轮”策略）提升至 62.0%（使用“保留最近k 轮”策略）。我们还发现，使用不同的“保留最近 k 轮”值，或者在上下文长度达到预定义的标记阈值时触发“保留最近 k 轮”，都会得到相同的结果。

在此基础上，我们将“保留最新”与“全部丢弃”相结合，形成了一种混合的分层上下文管理策略。在使用“保留最新”进行推理时，如果上下文的总长度超过阈值 T，我们将丢弃整个工具调用历史，并以全新的上下文重新开始，同时继续应用“保留最新”策略。我们通过参数搜索确定 T = 32k。

如图 8 所示，在不同的计算预算下，该策略有效地释放了上下文空间，使模型能够执行更多步骤，并持续提升性能。与单独使用 Discard-all 相比，结合 keep-recent-k 在所有预算下均实现了稳定的增益，最终得分达到 75.9，超过了所有配备上下文管理功能的开源模型。

图 8：从 GLM-4.7（灰色基线）到 GLM-5（彩色策略），BrowseComp 在不同上下文管理策略下的准确率。

4.2.5 幻灯片生成

我们采用了一种自我改进的流程，旨在通过强化学习和拒绝采样微调训练专门的幻灯片生成专家，从而系统地提升幻灯片生成性能。首先，我们通过有监督微调（SFT）对模型进行初始化，以提供基本的幻灯片生成能力，然后进行基于幻灯片常见美学和结构属性的多级奖励机制的强化学习。这一阶段显著提高了生成质量。

我们进一步进行拒绝采样微调和掩码微调，使强化学习过程中获得的知识能够回流到训练语料库中。这一过程以协调和迭代的方式共同提升数据质量和模型能力。

我们提出了一种多层级奖励公式，将基于 HTML 的幻灯片生成过程中的奖励信号划分为三个层级：

第 1 级：静态标记属性。此级别侧重于生成的 HTML 中的声明性属性，包括定位、间距、颜色、排版、饱和度和其他风格属性。基于专业设计原则，我们设计了一套规则来规范模型在生成此类声明时的行为。这些规则确保生成的 HTML 在语法上可解析，同时在标记级别将设计空间限制在一个优化了表达力、结构清晰度、视觉和谐性和可读性的子空间内。此外，我们还引入了幻觉图像和重复图像检测机制，以抑制幻觉或冗余图像的出现。

第 2 级：运行时渲染属性。与静态检查不同，此级别在渲染期间评估 DOM 节点的运行时属性，例如元素的宽度和高度、边界框以及其他几何布局指标。通过限制这些属性，我们鼓励生成的幻灯片在空间组织上更符合人类的审美偏好。

我们开发了一个分布式渲染服务，能够以高吞吐量执行渲染任务，同时提取所需的运行时属性。在训练过程中，我们观察到几种奖励作弊行为，例如对过长内容进行硬截断或过度调整间距（见图 9）。为解决这些问题，我们改进了渲染器的实现，以消除可被利用的漏洞，确保奖励信号真正激励美观协调的布局，而非仅仅表面上符合几何指标。

图 9：在幻灯片强化学习训练中奖励作弊的示例。我们的运行时渲染获取了基于实际的属性值，使评估能够抵御此类作弊行为。

第 3 级：视觉感知特征。除了运行时的渲染限制外，我们还纳入了对渲染幻灯片的感知层面评估。例如，我们检测异常的空白区域模式，作为辅助信号来进一步提升整体构图平衡和视觉美感。

训练策略

这些信号在强化学习过程中共同优化，以提高生成的 HTML 的结构有效性，增强布局组织，并提升整体视觉美感。除了奖励设计之外，我们还通过动态采样重塑训练分布。具体而言，会以一定概率舍弃一部分结构简单的样本，使优化过程能够专注于更具挑战性的页面，并在复杂布局场景下提高鲁棒性。我们还采用基于标记的策略梯度损失来稳定优化过程。此外，我们引入了一种平衡策略，将同一样本的不同展开结果分配到多个训练批次中，从而减少优化偏差并提高训练稳定性。

拒绝采样

在拒绝采样阶段，强化学习中使用的奖励函数被转移到数据过滤管道中，以构建高质量的训练子集。在页面级别，过滤标准包括代码有效性和编译可行性。在轨迹级别，我们进一步强制执行工具执行正确性和全局内容多样性约束，确保结构一致性。我们采用“最佳 N 选一”策略，从多个独立生成的候选样本中保留质量最高的样本。这种机制有效地将分布重新加权到更高质量的实例上，从而提高样本效率并增强训练稳定性。

基于掩码的优化

尽管拒绝采样能够去除大部分低质量的输出，但仍有部分轨迹仅在少数页面存在缺陷。丢弃这些样本会降低有效数据利用率并增加生成成本。为解决这一问题，我们引入了一种基于掩码的校正机制，该机制能够自动识别缺陷页面并进行掩码处理，同时保留同一轨迹中的高质量内容。这种选择性优化保留了有价值的监督信号，提高了有效数据效率，减少了冗余的重新生成开销，从而提升了整体训练效率。

经验改进

严格符合 16:9 纵横比的生成页面比例从 40% 提升至 92%，同时页面溢出情况大幅减少。人工评估进一步表明，与 GLM-4.5 相比，GLM-5 在内容质量方面胜出率为 60%，在布局合理性方面为 57.5%，在视觉美感方面为 65%，总体胜出率为 67.5%。这些结果为所提出的多级奖励设计和自我改进框架的有效性提供了经验依据。

5、适配国产芯片

将 GLM-5 适配到多样化的国产芯片基础设施面临重大挑战，这主要是由于硬件生态系统的异质性，这往往会使高性能部署变得复杂。尽管存在这些障碍，我们还是通过与包括华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、壁仞和天数智芯在内的七家主流国产芯片平台的紧密合作，成功实现了 GLM-5 的全栈适配。在本节中，我们将以昇腾 Atlas 系列为例，展示我们的适配方法，重点关注三个核心支柱：极致量化、高性能内核融合和先进的推理引擎调度。

混合精度 W4A8 量化

为了将拥有 7500 亿参数的 GLM-5 模型部署到单个 Atlas 800T A3 机器上，我们实施了一种复杂的 W4A8 混合精度量化策略。借助 msModelSlim 7 工具，我们对模型的不同组件采用了特定的精度：标准的注意力机制和多层感知机（MLP）模块使用 W8A8（INT8），而专家混合（MoE）模块则压缩为 W4A8（INT4），从而大幅减少内存占用，同时不会造成显著的精度损失。我们还采用了诸如 QuaRot 这样的高级算法来抑制异常值，并使用 Flex_AWQ_SSZ 进行缩放校准，以确保在低比特部署中的稳定性。

高性能融合内核

为解决 Ascend NPU 上稀疏注意力机制的计算瓶颈，我们开发了一套定制化的融合内核：闪电索引器、稀疏闪存注意力和 MLAPO（多头潜在注意力预处理优化）。闪电索引器将分数计算、ReLU 和 TopK 操作整合到一个内核中，从而实现 NPU 可以实现计算与内存访问的重叠。对于稀疏闪存注意力内核，我们专门针对 GLM-5 的稀疏模式进行了优化。此内核可并行处理从 KV 缓存中选择 TopK 令牌和稀疏注意力计算。

最后，MLAPO 将 13 个小型预处理操作融合为一个“超级操作”，利用向量单元和立方体单元之间的并行处理来提高端到端的效率。针对推理引擎的优化。我们对两款领先的推理引擎 vLLM-Ascend 和 SGLang 进行了适配，以最大限度地提高硬件利用率：

异步调度：在 vLLM 中，我们实现了一种机制，使“设备到主机”（D2H）采样复制与下一个解码步骤的准备工作能够重叠进行，从而有效消除了调度“空泡”。
上下文管理：诸如 RadixCache（前缀共享）和前缀缓存（将键值存储扩展到系统内存）等功能能够高效地重复利用键值条目，这对于长上下文的性能至关重要。
并行策略：我们采用了一种混合方法，结合了注意力数据并行（DP）和 MoE 专家并行（EP），并使用 FlashComm 将 AllReduce 操作拆分，以在计算过程中隐藏通信延迟。
多标记预测（MTP）：通过在每次推理步骤中生成多个标记，我们显著提高了 NPU 计算密度，并减少了总序列生成时间。

通过这些硬件层面的协同优化，GLM-5 在单个国产节点上实现了与双 GPU 国际集群相当的性能，同时在长序列场景中将部署成本降低了 50%。

6、评估

如上所述，GLM-5 标志着从氛围编码向智能体工程新时代的转变。我们首先在智能体、推理和编码（ARC）基准测试中用前沿模型对 GLM-5 进行评估。为了全面评估 GLM-5 在实际智能体工程场景中的性能，我们提出了一套新的内部评估套件 CC-Bench-V2，其中包括前端、后端和长周期任务。最后，我们在五个常见的实际场景中评估了 GLM-5 的通用能力。

6.1 ARC 基准评估

我们在表 7 中报告了 ARC 基准测试的主要结果，该结果将 GLM-5 与 GLM-4.7、DeepSeek-V3.2、Kimi-K2.5、Claude Opus 4.5、Gemini 3 Pro 以及 GPT-5.2 (xhigh) 进行了比较。总体而言，GLM-5 相较于 GLM-4.7 有了显著的提升，并在开源模型中达到了最先进的性能水平，缩小了与诸如 Claude Opus 4.5 等专有模型之间的差距。评估详情请参见 B.2 节。

6.1.1 推理与通用基准评估

推理和通用基准测试

对 Humanity’s Last Exam (HLE)、AIME 2026、HMMT 2025、IMO-AnswerBench、GPQA-Diamond 以及 LongBench v2 进行了评估。对于 HLE，仅对其基于文本的子集进行了评估，并使用 GPT-5.2（中等）作为评判模型。大多数推理任务的生成长度上限为 131,072 个标记，而 HLE-with-tools 的生成长度上限为 202，752 个标记。

从表 7 可以看出，GLM-5 在推理任务上的表现与强大的开源基准 Kimi-K2.5 相当。与专有模型相比，GLM-5 在 HLE（含工具）任务上的表现优于 Claude Opus 4.5 和 Gemini 3 Pro。与前代产品GLM-4.7 相比，GLM-5 在 HLE 基准测试（含工具和不含工具）中均有显著提升。

在 HMMT 2025年 2 月/11 月的基准测试中，GLM-5 的表现优于 Claude Opus 4.5 和 Gemini 3 Pro。GLM-5 在长上下文任务方面也取得了显著进展，这从其在长上下文推理基准 LongBench v2 中取得的最高分（仅次于 Gemini 3 Pro）中可见一斑。

表 7：GLM-5 与开源/专有模型的比较。标有 * 的结果来自完整的 HLE 数据集。标有 † 的结果是在修正了一些模糊指令的Terminal-Bench 2.0 验证版上评估得出的。GDPval-AA 的 Elo 分数记录于 2026 年 2 月 15 日。每个基准测试中的最高分加粗显示，次高分则加下划线。

6.1.2 编码基准评估

对于编码基准测试，我们在 SWE-bench Verified、SWE-bench Multilingual、Terminal Bench 2.0 和 CyberGym 上评估大语言模型。对于 SWE-bench Verified 和 Multilingual，我们使用 OpenHands 框架，并为 GLM-5 量身定制了指令提示。对于 Terminal-Bench 2.0，我们使用了两个智能体框架（即 Terminus-2 和 Claude Code），并且还报告了在解决了一些模糊指令的验证版 Terminal-Bench 2.0 上的性能。CyberGym 基准测试在 Claude Code 2.1.18 中进行评估。

从表 7 可以看出，在开源大语言模型中，GLM-5 在编码基准测试中达到了最先进的性能。与专有大语言模型相比，GLM-5在 SWE-bench Verified 上的表现优于 Gemini 3 Pro，在 SWE-bench Multilingual 上的表现也优于 Gemini 3 Pro 和 GPT-5.2（xhigh）。

在 Terminal-Bench 2.0 上，GLM-5 的表现与 Claude Opus 4.5 相当，而在解决该基准测试中模糊指令的问题后，其表现甚至更优。为了展示其编码能力的泛化性，我们在 Terminal Bench 2.0 上使用了两种智能体框架进行评估，GLM-5 表现出了稳定且一致的性能。

在两个框架中的表现。在网络安全编码基准测试（即 CyberGym）中，GLM-5 相较于 GLM-4.7 有了显著提升，仅次于 Claude Opus 4.5。

6.1.3 智能体能力评估

对于智能体基准，我们在 BrowseComp、BrowseComp-ZH、τ2-Bench、MCP-Atlas、Tool-Decathlon、Vending-Bench 2 和 GDPval-AA 上评估 GLM-5 和前沿模型。

BrowseComp 测量语言智能体通过浏览网页解决复杂问题的能力，而 BrowseComp-ZH 主要针对中文网页。对于BrowseComp，我们采用与 DeepSeek-V3.2 和 Kimi K2.5 相同的“全部丢弃”策略作为上下文管理。

τ2-Bench 评估对话智能体在双控环境中的能力。我们对 Retail 和 Telecom 进行了小的提示调整，以避免因用户过早终止而导致的失败（见 B.3）。

对于 Airline，我们应用 Claude Opus 4.5 系统卡中提出的领域修复，以获得更准确的结果。MCP-Atlas 是一个真实世界的工具使用基准，评估 LLM 在给定模型上下文协议（MCP）服务器的多步骤工作流程中的表现。

为了公平比较，我们在 500 个任务的公共集上重新评估所有模型，并将每个任务的超时时间从 4 分钟延长至 10 分钟，以避免因部署条件导致的任务失败。

我们使用 Gemini 3 Pro 作为 MCP-Atlas 的评判模型。Tool-Decathlon 也是一个工具使用基准，但侧重于现实世界中的长期任务。

Vending-Bench 2 在模拟环境中衡量了大型语言模型在商业场景中的长期智能体能力，相较于其前身 Vending-Bench，增加了更多现实因素。

GDPval 则关注人工智能体在经济上有价值的任务中的表现。

从表 7 可以看出，与 GLM-4.7 相比，GLM-5 在智能体基准测试中有了显著提升。在 BrowseComp 上，GLM-5 在有无上下文管理的情况下均在前沿大语言模型中取得了 SOTA（最先进）的性能。在BrowseComp-ZH 上，GLM-5 也超过了 Claude Opus 4.5 和 Gemini 3 Pro。

对于三个工具使用智能体任务（即 τ2-Bench、MCP-Atlas 和 Tool-Decathlon），GLM-5 的表现与 Claude Opus 4.5 相当，这表明GLM-5 具有强大的工具使用能力。

GLM-5 在 Vending-Bench 2 上的性能（即 4432 美元）进一步证明了其在商业任务中的长期规划能力。在经济场景中，GLM-5 在 GDPval-AA 上的表现优于 ClaudeOpus 4.5，仅次于 GPT-5.2（xhigh）。

6.2 真实世界智能体工程经验评估

实际经验比排行榜更重要。我们对内部的 CC-Bench 进行了升级，推出了 CC-Bench-V2，以评估模型在前端、后端以及长周期任务等现实的智能体工程环境中能否正确完成端到端的任务。CC-Bench-V2完全摒弃了人工标注，通过 Claude Code 和其他智能体工具，结合单元测试和“智能体即裁判”技术实现了全自动化。

前端

我们使用一条流水线首先构建由智能体生成的前端项目，并检查是否存在任何语法、依赖和兼容性错误。然后，我们使用“智能体即裁判”通过配备 Playwright 和 bash 工具的 GUI 智能体模拟用户交互来验证端到端的正确性。

后端

任务取材于 C++、Rust、Go、Java、TypeScript 和 Python 等语言的真实开源项目，涵盖功能实现、错误修复、回归修复和性能优化。每次更改都必须在合理的工程限制内通过完整的单元测试。

长期规划

我们首先评估模型在大型代码库中的信息检索能力，这是像人类开发者那样定位正确文件和理解项目背景的前提条件。然后，我们通过挖掘具有大量提交历史记录的已合并拉取请求，并将其提交聚类为连贯的任务链，来评估端到端的正确性。智能体依次执行这些任务链，测试其保持上下文和解决各阶段之间依赖关系的能力。评估结合了单元测试和“智能体作为裁判”的方法，以验证功能正确性和语义一致性。

6.2.1 前端评估——智能体作为评判者

我们开发了一个专门针对前端开发场景的全面自动化评估基准。该基准涵盖了开发者所涉及的各种各样的应用程序。

表 8：CC-Bench-V2 在前端、后端和长时序任务中的评估结果。BSR：构建成功率；ISR：实例成功率；CSR：检查项成功率。

我们经常构建各种应用，包括着陆页、管理仪表板、数据可视化、图形和动画、在线生产力工具、互动游戏以及表单驱动的工作流，所采用的技术栈涵盖主流技术，如 HTML、React、Vue、Svelte 和 Next.js。

每个测试用例都包含一个任务，其中包含多个具体且可实现的规范，以及一个检查清单，其中每个检查项都直接源自相应的规范。评估过程遵循两阶段流程：1）静态验证：我们首先验证生成的代码是否能够成功构建和运行。2）智能体作为裁判：对于能够正确执行的代码，我们使用图形用户界面智能体来模拟人类测试行为，以交互方式验证每个检查项，并根据需求的满足情况分配分数。我们定义了以下指标：构建成功率（BSR）衡量成功初始化并运行的项目比例。实例成功率（ISR）衡量通过所有相关规范的项目比例。检查项成功率（CSR）衡量所有检查项的细粒度完成率。有关数据分布以及构建和验证过程的更多详细信息，请参见附录 B.4.1。

图 10：作为裁判的智能体评估流程。每个生成的前端项目首先进行构建以验证静态正确性。成功构建的实例随后由自主的裁判智能体进行交互式测试，该智能体确定每个检查项的功能正确性。

智能体作为裁判

前端的正确性本质上是视觉和交互性的，即错误往往只有在用户点击按钮或调整窗口大小时才会显现出来，这使得静态分析和固定的测试套件显得不足。因此，我们引入了智能体作为裁判（图 10）：每个生成的项目都会被部署在 Docker 容器中构建并用于验证静态正确性。

成功构建的实例随后会交给一个自主的 JudgeAgent（配备 Claude Code 和 Claude Sonnet 4.5 以及 Playwright MCP 工具），该智能体在闭环周期中运行：对于每个检查项，智能体会读取源代码，与实时用户界面进行交互（点击、按键、截图），检查终端输出，并给出通过/失败的判定。

为了验证可靠性，我们从两个维度将“智能体作为裁判”的裁决与独立的人类专家判断进行比较。在逐点一致性方面，我们抽取了 130 个检查项，让人类专家独立评分，并与智能体的裁决进行比较：两者在 94% 的项目上达成一致，分歧主要集中在主观视觉质量标准而非功能规格上。

在排名一致性方面，我们使用自动化框架和人类专家对 8 个前沿模型（Claude Sonnet 4.5、Claude Opus 4.5、Gemini 3 Pro、GLM-4.7、DeepSeek-V3.2 等）进行了评估。最终的模型排名实现了 85.7% 的斯皮尔曼相关性，表明存在很强的正相关性。

如表 8 所示，GLM-5 的 BSR 达到 98.0%，在 CSR 方面与 Claude Opus 4.5 不相上下，但在所有三个堆栈中，ISR 差距依然显著，这表明 GLM-5 能够满足大多数个体需求，但在端到端完成整个任务方面仍逊于 Claude Opus 4.5。

6.2.2 后端评估

后端评估旨在衡量编码智能体在现实工程约束条件下，能否对真实世界的服务器端代码库进行正确且通过测试的修改。我们精心策划了 85 项任务，涵盖六种语言（Python、Go、C++、Rust、Java和 TypeScript），涉及搜索引擎、数据库引擎、Web 框架、AI 推理服务、知识管理系统以及独立的算法和系统编程挑战等领域。任务类型包括功能实现、错误修复、回归修复和性能优化，反映了日常后端开发的多样性。

为了实现完全自动化的评估，每个任务都配备了由人工编写的单元测试（每个任务 5 至 10 个），这些测试用于验证功能正确性和边界情况处理。任务以终端基准测试的形式进行封装：每个任务都在从项目实际构建环境初始化的 Docker 容器中运行，智能体会收到一个自然语言的问题陈述，描述所需进行的更改。我们报告首次通过率（Pass@1），即只有当所有相关单元测试都通过时，任务才被视为已解决。

这种严格的全有或全无的标准使得此基准测试极具挑战性：GLM-5 和Claude Opus 4.5 的表现相当（见表 8），均显著优于 GLM-4.7。

6.2.3 长期规划

长期规划着眼于区分生产级智能体工程与单轮代码生成的能力：驾驭庞大的代码库以及执行多步骤开发，其中每一步操作都会重塑后续步骤的上下文。我们将此分解为两个相辅相成的任务。

大型代码库探索

任何非简单的编码任务的一个先决条件是在一个庞大的、不熟悉的代码库中找到正确的源文件。我们基于包含数万文件的真实高星 GitHub 代码库构建了一个自动化基准测试。每个问题都用自然的、面向用户的语言表述，达到业务语义的层面，严格避免提及文件名、类名或函数名。

此外，问题需要用户从面向用户的描述到实际实现进行一到两次逻辑推理，例如，关于生成视频中唇形与声音不同步的问题，对应到视频生成后端中的一个参数调整模块。

目标文件的选择旨在最大化导航难度：它们至少位于三个目录层级之下，文件名晦涩难懂，难以通过关键词搜索找到，实现的功能在代码库的其他地方没有重复，并且位于代码库的主要功能面之外。

我们报告了三次运行的平均 Pass@1，如果智能体在探索过程中成功读取目标文件，则认为问题已解决。在该任务中，GLM-5 的表现优于 Claude Opus 4.5（见表 8），两者都远远领先于 GLM-4.7。

这一结果表明，有效的代码复用探索在很大程度上取决于策略性搜索，而非单纯的代码生成能力，即通过目录级推理和语义关联逐步缩小文件空间，而 GLM-5 在智能体工具使用轨迹方面的训练显然具有明显优势。

表 9：2026 年 1 月 SWE-rebench 测试性能。

多步链式任务

主流的编码基准测试，如 SWE-bench，将评估简化为单次提交、独立的代码修改，因此无法评估智能体在增量开发中的能力，即每个步骤都会改变代码库的状态以影响后续步骤。为了解决这个问题，我们通过以下流程从高质量的代码库中挖掘合并的拉取请求，并构建长周期基准测试：

1. PR 过滤。仅保留包含测试、包含 3 至 15 次提交且遵循线性（非合并）历史记录的已合并PR。

2. 语义分组。大型语言模型（LLM）对相邻提交之间的语义相关性进行成对评分；动态规划找到最优划分，将提交划分为连贯的任务组，以最大化组内一致性，同时保持提交顺序。

3. 补丁分类。每个任务的累积差异被分为三类：黄金补丁（智能体必须生成的核心代码）、测试补丁（验证测试）和自动应用补丁（自动应用的配置和固定装置）。

4. 问题陈述生成。大型语言模型（LLM）根据每个任务的补丁和提交消息生成自然语言的问题陈述。

5. 任务分类。任务会自动分类（功能 / 修复漏洞 / 重构 / 测试 / 配置），并从三个维度进行评估：错误消除、关键路径准确性以及测试通过情况。

6. 环境验证。构建 Docker 环境，并应用黄金补丁以验证整个链路中无任何退化情况。

给定一个由 K 个任务组成的链，智能体从基础提交开始，依次进行操作：完成任务 k 后，其更改会被提交，然后应用任务 k + 1 的自动应用补丁，因此代码库的状态会逐步累积演变。评估会依次检查每个提交，并在运行完整测试套件之前累积应用从任务 1 到 k 的测试补丁，从而捕获当前任务的失败以及早期任务的回归。我们报告单个任务的 Pass@1。

这种链式和状态递归的设计直接评估了单提交基准测试未涵盖的长程上下文跟踪、规划和增量开发能力。如表8 所示，GLM-5 相较于 GLM-4.7 有了显著提升，但与 Claude Opus 4.5 相比仍有较大差距。这是因为错误会在链中累积：一个任务中的次优编辑可能会在后续任务中悄然破坏测试。缩小这一差距需要在长上下文一致性和长时域自我修正方面取得进展，这两者都是我们当前研究的活跃领域。

6.2.4 对不断演变的软件工程任务的评估

我们选择在 SWE-rebench上进行评估，因为 SWE-bench Verified 是一个静态的、公开的、经过人工验证的测试集，并且已发布超过两年。相比之下，SWE-rebench 是基于一个自动化流程构建的，该流程持续挖掘新鲜的、真实的 GitHub 问题修复任务，从而能够进行去伪存真、不受时间影响的评估，更好地衡量对新软件工程问题的泛化能力，而非在静态基准上的表现。表 9 展示了 GLM-5 在 SWE-rebench 上的官方性能，我们观察到 GLM-5 能够有效地泛化到新的软件工程问题。

图 11：GLM-4.7 与 GLM-5 在五个真实世界的一般能力领域中的性能比较。

6.3 真实世界通用能力评估

虽然标准化的学术基准提供了有用的信号，但它们并不能完全反映模型在实际应用中的使用情况。为了认识到这一差距，我们在一组源自部署环境中高频用户交互模式的真实世界通用能力上对 GLM-5 进行了评估。这些能力包括机器翻译、多语言对话、指令遵循、世界知识和工具调用。

与传统的以基准测试为中心的评估不同，我们的目标是衡量那些能直接转化为用户感知质量提升的改进。对于每项能力，我们采用内部人工评估、内部自动化评估、外部人工评估以及外部自动化基准测试相结合的方式，确保诊断的细致程度和跨模型的可比性。在使用外部基准测试时，我们优先选择能反映现实交互模式而非狭隘构建的测试分布的数据集。

图 11 展示了 GLM-5 与 GLM-4.7 在五个真实世界能力领域的对比结果。在所有评估维度上，GLM-5 在机器翻译、多语言对话、指令遵循、世界知识和工具调用方面均表现出一致的改进。

针对每种能力的详细评估协议和数据集描述如下。

6.3.1 机器翻译

ZMultiTransBench

这个内部数据集包含 1220 个样本，这些样本来自自行收集的高频翻译场景，涵盖七种语言对：中文到西班牙语（300 个）、俄语（250 个）、法语（220 个）、韩语（200个）、日语（150 个）、阿拉伯语（50 个）和德语（50 个）。所有样本均由接受过正式翻译研究培训的研究生进行整理、翻译和独立验证。该数据集强调自然出现的使用场景，而非人为构建的测试用例。评估通过与固定基准响应进行成对比较来进行。评估由基于 GPT-4.1 的自动评估器提供，该评估器根据语义保真度、流畅度和整体翻译质量进行评判。

MENT-SNS

为了进一步评估在语言复杂情境下的稳健性，我们从 MENT中选取了源语句，其中包括 753 个英汉句子对，涵盖四个领域：社交网络服务（SNS）、跨文化、诗歌和文学。这些领域被选中是为了在包括俚语、谐音双关语、惯用表达、历史典故和隐喻性语言等复杂语言现象下对翻译进行压力测试。与 ZMultiTrans-Bench 类似，所有样本均由经过专业训练的研究生进行整理和验证。评估遵循与基线响应进行成对比较的相同协议，GPT-4.1 作为自动评判模型。

6.3.2 多语言对话LMArena

我们报告来自 LMArena9 的 Elo 等级，这些等级源自大规模的社区提交的两两比较。这些等级反映了在开放式对话设置中对模型的相对偏好，并提供了对话表现的外部信号。

ZMultiDialBench

除了公开的排行榜之外，我们还在内部多语言对话基准 ZMultiDialBench上进行了人工评估。该数据集包含 141 个精心挑选的实例，涵盖了多种对话类别。样本来自多个国家的母语标注员提供的高质量对话数据，以及在线用户报告的具有挑战性的失败案例。人工标注员根据特定类别、标准化的评估标准，对匿名模型响应进行 1 至 10 分的评分。

6.3.3 指令遵循IF-Badcase

IF-Badcase 是一个内部基准测试集，由生产环境中真实用户报告的指令遵循失败案例构建而成。该数据集旨在评估对现实多约束指令的严格遵循情况，强调程序准确性、逻辑一致性和严格的格式要求。评估采用基于详细检查表的协议进行，以验证对明确约束的遵守情况，包括有序步骤、基于规则的条件和结构规范。所有样本均由人工专家进行标注、审查和反复筛选，最终形成了一套包含 450 个测试实例的精选集。

IF-Bench

IF-Bench 评估大型语言模型（LLMs）遵循复杂客观约束的能力，例如特定的格式规则、长度限制和内容限制。它提供了一种对精确遵循指令能力的定量衡量标准，重点在于可验证的合规性，而非开放式的生成质量。

MultiChallenge

MultiChallenge 通过真实的多轮对话场景来检验大型语言模型。它针对的是需要准确遵循指令、分配上下文以及进行上下文推理的复杂交互。

6.3.4 世界知识SimpleQA

SimpleQA 通过具有单一且无可争议答案的难题来衡量简短事实性。它通过将回答分类为正确、错误或未作答来评估模型的校准情况，优先考虑准确性而非生成内容的长度。

中文 SimpleQA

将 SimpleQA 方法应用于中文语境，该基准测试在六个主要领域和 99个子主题中评估事实性。它采用高质量、静态、简短的答案问题，旨在实现可靠、自动化的评分，以评估大型语言模型的知识准确性。

6.3.5 工具调用

ToolCall-Badcase

ToolCall-Badcase 是一个内部基准，源自生产环境中用户报告的工具调用场景中的失败案例。每个实例都与可验证的真实工具调用相关联，从而能够客观地评估工具选择和参数设置。

正确性

评估旨在考察模型是否（1）调用了正确的工具，以及（2）提供了结构正确且语义准确的参数。所有样本都经过了多轮审查、重写和验证，以消除歧义并确保可评估性。最终生成的数据集包含 200 个精心挑选的测试用例，反映了实际的工具调用能力。

7、结论

在本报告中，我们介绍了 GLM-5，这是一款下一代基础模型，从根本上弥合了高性能推理与极致计算效率之间的差距。通过从“氛围编码”范式向真正的“智能体工程”转变，GLM-5 展示了开放权重模型如今能够在复杂的现实工作流程中与顶级专有系统相媲美。GLM-5 标志着实用人工智能效用的范式转变。通过将模型开源，我们旨在让社区超越静态基准，探索高效、智能体式通用智能的前沿，开启一个新时代，在这个时代，AI 智能体能够自主规划、实施和迭代复杂任务。

8、复活节彩蛋

“Pony Alpha” 实验对我们而言确实是一个关键的时刻。在 OpenRouter 上匿名发布 GLM-5 是一个大胆的决定，但结果却令人非常满意。通过去掉我们的品牌名称，我们让模型本身的能力得以充分展现，确保收到的反馈是纯粹且客观的。以下是简要总结：

几天之内，Pony Alpha 就引起了轰动。OpenRouter 社区的开发者们开始注意到它在复杂编码任务、智能体工作流程和角色扮演场景中的出色表现。

猜测甚嚣尘上，许多用户纷纷猜测这是来自 Anthropic 等实验室的泄露更新（如 Claude Sonnet5），或是 Grok 的秘密发布，又或是 DeepSeek V4。初步统计显示，25%的用户认为是 ClaudeSonnet 5，20%认为是 DeepSeek，10%认为是 Grok，其余的则认为是 GLM-5。

最终确认这确实是我们的 GLM-5，对我们来说是一个意义深远的时刻，这有效地消除了关于中国大语言模型能否在前沿领域一较高下的疑虑。