智谱发布Infra新成果，同等硬件投入下算力多出15%

文章来源：企鹅号 - 财经网

5月21日消息，智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube：在线上GLM-5.1 coding场景中，在保持GPU算力、软件栈与应用不变的前提下，ZCube节省了33%交换机与光模块成本，同时将GPU平均推理吞吐提升了15%，并将TTFT P99降低了40.6%。

这意味着，同样的硬件投入下，智谱GLM大模型现在每秒能多响应15%的API请求。