Nvidia：AI智能体正在打破数据中心的吞吐量模型

文章来源：企鹅号 - 至顶科技

近期，OpenAI发布GPT-4.5模型，Nvidia也推出了有关构建智能体的最新指导方案，这一系列动态标志着AI在生产环境中的运行方式正在发生深刻转变。AI系统不再只是响应单一的离散指令，而是逐步演变为能够执行多步骤任务、调用外部工具并持续维护上下文状态的持久化智能体。

这一转变正在动摇现代AI基础设施的核心假设——即工作负载由短暂、无状态的请求构成，并针对吞吐量进行优化。

智能体工作负载需要维护状态，其运行方式呈现为突发性的计算与I/O操作及协调任务交替进行，使得需求预测变得更加困难：可预测性更低、批处理难度更大，同时对整体系统协调能力的依赖也大幅提升。

从无状态推理到长周期进程

Nvidia近期的技术框架聚焦于能够跨任务进行规划、执行和迭代，并与外部工具及环境持续交互的智能体。这与传统推理任务截然不同——传统推理运行在以每秒Token数为优化目标的紧密循环中。

Moor Insights & Strategy副总裁兼首席分析师Matt Kimball在接受Data Center Knowledge采访时表示："随着智能体技术的兴起，我们正从无状态的单次推理迈向长周期的有状态进程。这些智能体不仅仅是在生成Token，它们还需要维护上下文、调用工具、等待外部系统响应并在适当时机恢复执行。"

这种不可预测性正在扰乱现有系统的调优方式。

"传统推理建立在紧密循环之上，预填充与解码按照可预测的模式交替进行，"Kimball说，"而智能体工作负载将这一切彻底颠覆。你会看到大量密集计算之后紧跟着一段空闲时间——系统在等待工具调用或数据获取返回结果。"

这些间隙在大规模部署中几乎无法消除。

"如果系统无法将预填充与解码分离，也无法让多个任务同时推进，GPU就会有大量时间处于闲置状态，"他说。

瓶颈已不再局限于模型本身

模型的进步依然至关重要，但它已不再是定义系统上限的唯一因素。Kimball认为，瓶颈已从模型本身扩展到了围绕模型运行的整个系统。"模型依然重要，但它已不再是独立存在的主要制约因素。"

随着工作负载的持续运行，系统压力开始向整个技术栈蔓延。

"规模化部署中问题的根源在于系统整体，而非某一单独组件，"他说，"内存已成为首要制约因素——尤其是在KV缓存和会话上下文需要跨越更长交互周期持续保存的情况下。"

由于智能体需要持续访问外部系统，数据访问效率和本地化处理变得愈发关键；这些调用的延迟会直接影响用户体验。与此同时，随着部署架构日趋分散，东西向流量显著增加，网络也成为不可忽视的重要因素。

系统的制约核心，已从模型的运行速度转变为系统对内存、数据移动与执行流程的整体协调能力。

调度、利用率与协调机制的崛起

这一转变在实际运营层面的影响也清晰可见。智能体工作负载难以无缝融入高吞吐量推理流水线，其不规则的执行模式给调度带来了复杂性，并进一步拉低了整体效率。

"随着这些系统的编排复杂度不断提升，CPU开始重新确立其作为控制平面的地位，"Kimball说，"负责处理调度、API调用以及将各步骤串联起来的逻辑层。"

GPU依然不可或缺，但其角色正在发生变化，他补充道："GPU仍然承担计算任务，但它不再主导整个系统的运转。"

将这一转变与高性能计算（HPC）进行类比有助于理解，但这个比较也有其局限性。

"HPC针对的是完成大型、定义明确的作业，"Kimball说，"而现在，重点不再是完成单个作业，而是在分布式进程中持续维护状态。"

这一根本差异改变了系统分配资源的方式。基础设施不再是针对独立作业的完成进行优化，而是需要长期支撑众多细粒度、相互依赖的执行步骤。

"我们正在从以计算为中心的推理系统，转向以协调为中心的AI系统，"Kimball说。

这一转变从根本上重塑了运维人员看待问题的视角。当工作负载在时长和复杂度上持续扩张，单纯在模型层面提升效率已无法缓解基础设施的压力。需求的衡量标准不再是处理的Token数量，而是系统的持续占用时长以及工作协调的质量。

Q&A

Q1：什么是智能体工作负载？它与传统AI推理有什么区别？

A：传统AI推理处理的是短暂、无状态的请求，系统接收一个指令、生成输出后即结束。而智能体工作负载则不同，智能体需要维护上下文状态、调用外部工具、等待系统响应并在适当时机恢复执行，整个过程是持续性的多步骤任务。这种模式导致计算呈现突发性，GPU会在等待工具调用或数据获取期间出现空闲，传统针对吞吐量优化的推理架构难以高效支撑此类负载。

Q2：AI智能体工作负载为什么会让GPU出现闲置？

A：AI智能体在执行过程中需要频繁调用外部工具或等待数据返回，这段等待时间内GPU无法持续运算。传统推理采用紧密循环模式，预填充与解码按可预测节奏交替进行，GPU利用率较高。但智能体工作负载打破了这一规律，密集计算后紧跟空闲等待，如果系统无法将预填充与解码分离、让多任务并行推进，GPU闲置问题便会在大规模部署中显著放大。

Q3：智能体时代下，数据中心的基础设施瓶颈发生了哪些变化？

A：在传统推理时代，瓶颈主要集中在模型本身的计算速度上。进入智能体时代后，瓶颈已扩展至整个系统层面：内存成为首要制约（尤其是KV缓存和会话上下文的持久化存储）；由于智能体持续访问外部系统，数据访问延迟直接影响用户体验；随着部署架构分散化，东西向网络流量增加，网络也成为重要瓶颈。整体上，系统从"以计算为中心"转向"以协调为中心"。

发表于: 1天前2026-04-27 12:08:16
原文链接：https://page.om.qq.com/page/OzH48y3bqzPe9fGRPmJgn0lg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Nvidia：AI智能体正在打破数据中心的吞吐量模型

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐