AI基础设施焦点转向能效优化

文章来源：企鹅号 - 至顶科技

过去两年，AI基础设施的竞赛主要围绕着一个指标展开：获取更多的GPU。

但随着超大规模云服务商、企业和公共部门将AI工作负载推向生产环境，关注点正在转向一个更棘手的问题——这些系统的运行效率究竟如何。

本周在北卡罗来纳州达勒姆举行的NC Tech科技节活动上，来自企业IT和基础设施领域的演讲嘉宾共同探讨了电网压力日益加大、集群复杂度持续上升，以及大规模AI部署所带来的运维挑战。

北卡罗来纳州卫生与公众服务部首席信息官Vijay Ramanujam表示："电网所能提供的能源与这些供应商所需的算力需求之间存在严重不匹配。所有人都在思考如何重新架构基础设施，使其更高效。"

这些观点反映出整个AI基础设施市场正在发生转变，运营方开始正视大型GPU集群所面临的物理极限。

集群越大，难题越多

如今的训练和推理系统动辄涵盖数万块GPU，这使得电力供应、散热冷却、网络互联以及工作负载协调成为重大的运维挑战。

业内讨论曾经几乎完全聚焦于GPU短缺，如今则越来越多地涉及利用率、集群效率和调度软件等议题。

原因很简单：堆叠更多GPU并不会自动带来等比例的性能提升。

随着AI集群规模扩大，通信开销、负载失衡和网络延迟会显著拉低整体系统的有效利用率。

Ramanujam指出，许多机构依然依赖暴力堆硬件的方式，而不是改进工作负载在GPU集群中的流转效率。

他说："只有少数前沿实验室有足够的专业能力和时间去重新设计方案，让系统运行更高效。"

超越FLOPS的衡量标准

对效率的日益重视，也在改变部分运营方评估AI基础设施经济性的方式。

机构不再单纯关注GPU数量或理论算力性能，而是越来越多地衡量系统在单位功耗下能够产出多少可用的AI成果。

Ramanujam表示："我们已经不再仅以FLOPS作为衡量标准。大家开始问，每瓦特能输出多少Token。"

这一转变反映出业界对电力供应的广泛担忧——AI需求不断攀升，运营方在获取更多电力容量方面正面临困难。

效率议题向上层延伸

随着运营方寻求在不持续扩张物理基础设施的前提下提升性能，软件优化和工作负载编排正成为AI基础设施规划中越来越重要的环节。

Ramanujam表示，规模更大的部署越来越多地暴露出与通信开销、GPU利用率、网络延迟和电力消耗相关的低效问题。

最终结果是，AI基础设施市场开始从单纯堆积GPU，转向更加关注如何高效地将电力和硬件转化为可用的AI产出。

Q&A

Q1：为什么AI基础设施的关注点从GPU数量转向了能效？

A：因为单纯堆叠GPU并不能带来等比例的性能提升。随着集群规模扩大，通信开销、负载失衡和网络延迟会显著降低系统的有效利用率。同时电网供电能力跟不上算力需求增长，迫使行业从拼硬件数量转向拼效率。

Q2：现在AI基础设施用什么新指标衡量性能？

A：业内已经不再仅以FLOPS（每秒浮点运算次数）作为衡量标准，而是开始关注每瓦特能输出多少Token，也就是单位功耗下能产生多少可用的AI输出。这种指标更能反映系统的实际运行经济性。

Q3：大规模AI集群部署面临哪些主要挑战？

A：主要挑战包括电力供应、散热冷却、网络互联和工作负载协调。当集群涵盖数万块GPU时，通信开销、GPU利用率不足、网络延迟和电力消耗等低效问题会暴露得更加明显，需要通过软件优化和工作负载编排来解决。

相关快讯