智谱发布GLM-5.1：将大模型能力从短时交互延伸至8小时级自治工程任务

文章来源：企鹅号 - PConline太平洋科技

【太平洋科技快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1，该模型可独立完成最长 8 小时的长程自治任务，在多项代码基准测试中实现国产模型领先。

伴随 GLM-5.1 发布，智谱对 GLM 系列价格上调 10%。调价后，Coding 场景缓存 Token 价格接近 Claude Sonnet4.6，成为国产大模型首次在核心场景与海外头部厂商实现定价对齐。

8 小时持续工作，代码性能超越 Opus 4.6

GLM-5.1 定位为长程任务智能体，可在单次任务中自主规划、执行与迭代，连续稳定工作超 8 小时，官方介绍称是目前唯一达到该水平的开源模型。该模型在 SWE-bench Pro 测试中刷新全球成绩，超越 GPT-5.4 与 Claude Opus 4.6，实现国产模型在该硬核指标上的首次突破。

在 Terminal-Bench 2.0、NL2Repo 等代码评测中，GLM-5.1 位列国产及开源模型第一，具备高质量工程开发与系统优化能力。

可完成系统构建、数据库优化等高阶工程任务

8 小时构建 Linux 桌面：全自动执行 1200 余步操作，完成窗口管理器、状态栏、应用生态等完整功能交付，等效 4 人团队一周工作量。

向量数据库优化：经 655 轮自主迭代，将查询吞吐从 3108 QPS 提升至 21472 QPS，性能提升约 6.9 倍。

主动的系统优化器：在 KernelBench 测试中实现 3.6 倍平均加速，显著优于传统 torch.compile 方案，支持 CUDA 与 Triton 内核深度调优。

延长有效工作窗口

GLM-5.1 重点优化长时任务稳定性，可在优化收益停滞时主动分析瓶颈、切换技术路径，而非重复增量调整。该模型解决了传统模型在数千次工具调用后出现的执行漂移问题，在无明确量化指标的场景中仍具备自我评估与持续改进能力。

智谱表示，该模型为全自治智能体（ 7 × 24 小时自治运行）奠定基础，后续将持续在自我评估、上下文一致性等方向迭代。

相关快讯