首页
学习
活动
专区
圈层
工具
发布

智谱发布GLM-5.1:将大模型能力从短时交互延伸至8小时级自治工程任务

【太平洋科技快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1,该模型可独立完成最长 8 小时的长程自治任务,在多项代码基准测试中实现国产模型领先。

伴随 GLM-5.1 发布,智谱对 GLM 系列价格上调 10%。调价后,Coding 场景缓存 Token 价格接近 Claude Sonnet4.6,成为国产大模型首次在核心场景与海外头部厂商实现定价对齐。

8 小时持续工作,代码性能超越 Opus 4.6

GLM-5.1 定位为长程任务智能体,可在单次任务中自主规划、执行与迭代,连续稳定工作超 8 小时,官方介绍称是目前唯一达到该水平的开源模型。该模型在 SWE-bench Pro 测试中刷新全球成绩,超越 GPT-5.4 与 Claude Opus 4.6,实现国产模型在该硬核指标上的首次突破。

在 Terminal-Bench 2.0、NL2Repo 等代码评测中,GLM-5.1 位列国产及开源模型第一,具备高质量工程开发与系统优化能力。

可完成系统构建、数据库优化等高阶工程任务

8 小时构建 Linux 桌面:全自动执行 1200 余步操作,完成窗口管理器、状态栏、应用生态等完整功能交付,等效 4 人团队一周工作量。

向量数据库优化:经 655 轮自主迭代,将查询吞吐从 3108 QPS 提升至 21472 QPS,性能提升约 6.9 倍。

主动的系统优化器:在 KernelBench 测试中实现 3.6 倍平均加速,显著优于传统 torch.compile 方案,支持 CUDA 与 Triton 内核深度调优。

延长有效工作窗口

GLM-5.1 重点优化长时任务稳定性,可在优化收益停滞时主动分析瓶颈、切换技术路径,而非重复增量调整。该模型解决了传统模型在数千次工具调用后出现的执行漂移问题,在无明确量化指标的场景中仍具备自我评估与持续改进能力。

智谱表示,该模型为全自治智能体( 7 × 24 小时自治运行)奠定基础,后续将持续在自我评估、上下文一致性等方向迭代。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7XEDB_kBEwfHrRCSrl-tNaQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券