近期,OpenAI发布GPT-4.5模型,Nvidia也推出了有关构建智能体的最新指导方案,这一系列动态标志着AI在生产环境中的运行方式正在发生深刻转变。AI系统不再只是响应单一的离散指令,而是逐步演变为能够执行多步骤任务、调用外部工具并持续维护上下文状态的持久化智能体。
这一转变正在动摇现代AI基础设施的核心假设——即工作负载由短暂、无状态的请求构成,并针对吞吐量进行优化。
智能体工作负载需要维护状态,其运行方式呈现为突发性的计算与I/O操作及协调任务交替进行,使得需求预测变得更加困难:可预测性更低、批处理难度更大,同时对整体系统协调能力的依赖也大幅提升。
从无状态推理到长周期进程
Nvidia近期的技术框架聚焦于能够跨任务进行规划、执行和迭代,并与外部工具及环境持续交互的智能体。这与传统推理任务截然不同——传统推理运行在以每秒Token数为优化目标的紧密循环中。
Moor Insights & Strategy副总裁兼首席分析师Matt Kimball在接受Data Center Knowledge采访时表示:"随着智能体技术的兴起,我们正从无状态的单次推理迈向长周期的有状态进程。这些智能体不仅仅是在生成Token,它们还需要维护上下文、调用工具、等待外部系统响应并在适当时机恢复执行。"
这种不可预测性正在扰乱现有系统的调优方式。
"传统推理建立在紧密循环之上,预填充与解码按照可预测的模式交替进行,"Kimball说,"而智能体工作负载将这一切彻底颠覆。你会看到大量密集计算之后紧跟着一段空闲时间——系统在等待工具调用或数据获取返回结果。"
这些间隙在大规模部署中几乎无法消除。
"如果系统无法将预填充与解码分离,也无法让多个任务同时推进,GPU就会有大量时间处于闲置状态,"他说。
瓶颈已不再局限于模型本身
模型的进步依然至关重要,但它已不再是定义系统上限的唯一因素。Kimball认为,瓶颈已从模型本身扩展到了围绕模型运行的整个系统。"模型依然重要,但它已不再是独立存在的主要制约因素。"
随着工作负载的持续运行,系统压力开始向整个技术栈蔓延。
"规模化部署中问题的根源在于系统整体,而非某一单独组件,"他说,"内存已成为首要制约因素——尤其是在KV缓存和会话上下文需要跨越更长交互周期持续保存的情况下。"
由于智能体需要持续访问外部系统,数据访问效率和本地化处理变得愈发关键;这些调用的延迟会直接影响用户体验。与此同时,随着部署架构日趋分散,东西向流量显著增加,网络也成为不可忽视的重要因素。
系统的制约核心,已从模型的运行速度转变为系统对内存、数据移动与执行流程的整体协调能力。
调度、利用率与协调机制的崛起
这一转变在实际运营层面的影响也清晰可见。智能体工作负载难以无缝融入高吞吐量推理流水线,其不规则的执行模式给调度带来了复杂性,并进一步拉低了整体效率。
"随着这些系统的编排复杂度不断提升,CPU开始重新确立其作为控制平面的地位,"Kimball说,"负责处理调度、API调用以及将各步骤串联起来的逻辑层。"
GPU依然不可或缺,但其角色正在发生变化,他补充道:"GPU仍然承担计算任务,但它不再主导整个系统的运转。"
将这一转变与高性能计算(HPC)进行类比有助于理解,但这个比较也有其局限性。
"HPC针对的是完成大型、定义明确的作业,"Kimball说,"而现在,重点不再是完成单个作业,而是在分布式进程中持续维护状态。"
这一根本差异改变了系统分配资源的方式。基础设施不再是针对独立作业的完成进行优化,而是需要长期支撑众多细粒度、相互依赖的执行步骤。
"我们正在从以计算为中心的推理系统,转向以协调为中心的AI系统,"Kimball说。
这一转变从根本上重塑了运维人员看待问题的视角。当工作负载在时长和复杂度上持续扩张,单纯在模型层面提升效率已无法缓解基础设施的压力。需求的衡量标准不再是处理的Token数量,而是系统的持续占用时长以及工作协调的质量。
Q&A
Q1:什么是智能体工作负载?它与传统AI推理有什么区别?
A:传统AI推理处理的是短暂、无状态的请求,系统接收一个指令、生成输出后即结束。而智能体工作负载则不同,智能体需要维护上下文状态、调用外部工具、等待系统响应并在适当时机恢复执行,整个过程是持续性的多步骤任务。这种模式导致计算呈现突发性,GPU会在等待工具调用或数据获取期间出现空闲,传统针对吞吐量优化的推理架构难以高效支撑此类负载。
Q2:AI智能体工作负载为什么会让GPU出现闲置?
A:AI智能体在执行过程中需要频繁调用外部工具或等待数据返回,这段等待时间内GPU无法持续运算。传统推理采用紧密循环模式,预填充与解码按可预测节奏交替进行,GPU利用率较高。但智能体工作负载打破了这一规律,密集计算后紧跟空闲等待,如果系统无法将预填充与解码分离、让多任务并行推进,GPU闲置问题便会在大规模部署中显著放大。
Q3:智能体时代下,数据中心的基础设施瓶颈发生了哪些变化?
A:在传统推理时代,瓶颈主要集中在模型本身的计算速度上。进入智能体时代后,瓶颈已扩展至整个系统层面:内存成为首要制约(尤其是KV缓存和会话上下文的持久化存储);由于智能体持续访问外部系统,数据访问延迟直接影响用户体验;随着部署架构分散化,东西向网络流量增加,网络也成为重要瓶颈。整体上,系统从"以计算为中心"转向"以协调为中心"。