AMD：AI集群扩展架构技术总结

光芯

发布于 2025-09-03 16:58:06

5410

在Hot Chips 2025 AI Rack Tutorial中，AMD解决方案架构师Darrin Vallis围绕“面向AI集群的Fabric技术扩展”展开深度解析，核心聚焦数据中心场景下的纵向扩展（Scale-Up）技术——这一直接影响AI模型训练效率的关键方向，同时系统梳理了其与横向扩展（Scale-Out）的差异、核心技术方案、拓扑设计逻辑及工程落地挑战。

数据中心网络的传统层级由核心层（CORE）、汇聚层（AGGREGATION）和架顶层（TOR）构成，主要承载南北向数据流量；而AI集群的兴起催生了“东西向后端”新层级，该层级以高带宽、低延迟为核心需求，专门支撑GPU间密集的数据交互，成为Fabric技术扩展的核心场景。

在此背景下，两种扩展模式形成鲜明对比：横向扩展（Scale-Out）依赖Clos层级、叶脊（Leaf-Spine）、网状（Mesh）等灵活的网络拓扑，通过增加节点数量实现规模扩张；纵向扩展（Scale-Up）则聚焦硬件直连性能，以GPU、CPU与内存间的链路（Lanes）优化为核心，通过提升单域带宽满足AI计算对数据传输的极致需求。

支撑Scale-Up的核心Fabric技术已形成多厂商布局：NVIDIA的NVLink及增强版NVLink Fusion是GPU间高速直连的主流方案，为多GPU协同提供基础；Celestial AI的Photonic Fabric™引入光子技术，突破传统电信号带宽瓶颈；Broadcom的SUE（Scale-Up Ethernet）则在以太网架构下构建纵向扩展框架；UALink联盟推出的UAL（Ultra Accelerator Link）则成为加速器专用的高速互联标准，这些技术共同构成了Scale-Up的技术底座。

Scale-Up的拓扑设计需围绕“GPU数量-链路数-交换机基数”三者的平衡展开。以数据中心L10/L11层级的基础配置为例，36个GPU需分配288条总链路（即每GPU 8条链路），而交换机基数（单交换机支持的最大链路数）直接决定扩展能力——基数越高，单交换机可覆盖的GPU范围越广，GPU-交换机带宽也越高，甚至可避免后续扩展中的“带宽缩减（Taper）”问题。

当GPU数量提升至144个时，总链路需求激增至10,368条，传统小基数交换机会导致托盘（Trays）数量过多，挤占机架空间并增加散热压力；此时采用大基数交换机，将单GPU链路分配调整为4条，可将托盘数量从12个缩减至6个，实现机架空间的高效适配。

然而，工程落地中的挑战远超理论设计。机械层面，机架的高度、深度、重量及功耗限制直接约束链路密度，且托盘内线缆体积增加会推高托盘高度，长距离链路所需的重定时器（Retimer）虽能优化信号，却会额外消耗功耗、成本并产生热量，且不贡献计算能力。

信号完整性（SI）是另一大瓶颈：212G PAM4信号在12英寸PCB上的损耗达15.24dB，2米27 AWG铜缆损耗达17.75dB，而光纤虽损耗极低（850nm多模光纤仅76×10⁻⁶dB/英寸），可插拔光模块（如OSFP）的成本与可靠性却难以平衡——以288 GPU集群为例，需4608个OSFP模块，总成本高达1800万美元，且平均无故障时间（MTBF）仅9天，远低于无源铜缆的500万小时。

当Scale-Up向更高层级（L2）扩展时，新问题随之出现：L1到L2的上行带宽需压缩至原有的一半，虽可通过调整“上下行带宽比”缓解，却会导致性能降级；同时，交换机数量需增至L1层的3倍，额外占用大量空间、功耗及散热资源。

为此，“L1.5”替代拓扑成为折中方案——在L1与L2间增加中间层，构建“域间网状结构”，以3:1的带宽缩减为代价，实现144个GPU的高效互联，兼顾扩展能力与资源消耗。

总体而言，Scale-Up技术的核心价值在于直接缩短AI模型训练时间、提升计算性能，但其复杂度由GPU数量、扩展带宽及交换机基数共同决定，且受限于数据中心基础设施、机械设计与信号完整性的物理边界。未来，更高带宽（>212G）技术、优化光模块方案及更大基数交换机的突破，将成为破解Scale-Up落地难题、推动AI集群高效扩展的关键方向。