5月21日消息,智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube:在线上GLM-5.1 coding场景中,在保持GPU算力、软件栈与应用不变的前提下,ZCube节省了33%交换机与光模块成本,同时将GPU平均推理吞吐提升了15%,并将TTFT P99降低了40.6%。
这意味着,同样的硬件投入下,智谱GLM大模型现在每秒能多响应15%的API请求。
分享快讯到朋友圈