
AGI小咖
"作为Meta AI网络架构系列演进篇,本文深度拆解Meta面向吉瓦级集群(如Prometheus)重构的非调度架构(NSF)——基于浅缓存商用以太网(如搭载NVIDIA Spectrum-4 ASIC的Minipack3N)和基于ORv3标准定制的高功率双机柜NVL72超节点(Catalina Pod)深度融合的高性能底座,依托原生支持自适应路由与Spectrum-X端网协同机制重构吉瓦级AI底座。"
PART 01
Meta AI网络架构前瞻回顾
在《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》中,我们分享了Meta在部署24K H100 GPU集群的工程实践中发现传统RoCEv2在AI“低熵、突发、大象流”下的失效难题,尝试了从星型到三层Clos的拓扑变革,从E-ECMP到集中式TE流量工程的路由迭代,以及从DCQCN失效到接收端驱动流控的突破等一系列“填坑”工程实践经验,这些宝贵的“填坑”经验成为下一代网络架构的“原型”和“试验场”,加速定制化DSF与开放式NSF的诞生。
紧接着在《Meta AI网络架构续集:DSF,一台“榨干”以太网物理极限的“F1赛车”,却难做“保时捷911”》中,我们继续分享了Meta工程师基于前人“填坑”经验设计了全新的DSF无损确定性网络,DSF采用前后端物理隔离与双平面冗余设计,创新性地引入以太网域与交换网域的双域解构架构,利用信元喷射技术打破大象流瓶颈;深度联动自研FBOSS控制平面和VOQ+Credit硬件流控结合输入均衡模式,实现了微秒级精度的无阻塞调度与链路故障的分布式自愈,将确定性调度和链路效率推向了物理极限。
尽管DSF性能极致,但对深缓存、高吞吐、低延迟专用交换芯片的强依赖制约了“吉瓦级”超大规模AI数据中心集群扩展,为下一代拥抱通用以太网的NSF(非调度网络)埋下伏笔。
接下来我们继续分享Meta下一代超大规模AI训练网络之NSF(非调度网络),看看其如何站在以太网巨人的肩膀之上再攀性能高峰。
PART 02
NSF架构重构:算网协同的分层设计
NSF以Catalina Pod (GB200 NVL72) 为最小原子构建单元,采用基于浅缓冲 OCP 以太网交换机的三层(Three-tier)分级互联架构,实现算力与网络的深度协同:
2.1 核心组件与物理实现:Catalina Pod
Meta为AI基础设施设计和定制的下一代开放架构平台——Catalina Pod(GB200 NVL72 + ORv3):

图1:Catalina Pod 内部互联拓扑

图2:标准版 NVL72 与 Meta 定制版计算单元架构对比
2.2 网络协同:Spectrum-X体系与开放生态
NSF架构完美践行了Meta在OCP 2025上重申的“开放网络未来”愿景,依托SAI(交换机抽象接口)与自研FBOSS操作系统,NSF构建了一个硬件解耦、多芯片并存的弹性底座高性能以太网底座。

如图3:Minipack3N高性能51.2 Tbps交换机

图4:基于SAI与 FBOSS的软硬件解耦架构
PART 03
NSF架构详解:全线速无阻塞Clos架构
NSF采用标准的三级Clos架构(Tier-3 Clos),构建了全网1:1严格无阻塞的确定性交换矩阵:

如图5:NSF三级Clos网络拓扑
3.1 L1 Pod(基本单元):高密度原子接入层
L1 Pod 是构建万卡乃至百万卡集群的最小物理单元,由3套 Catalina 超节点(即3套双机柜系统)与 9台 Leaf交换机耦合而成,单Pod算力密度达 216 GPU。
RTSW (Rack Top Switch / Leaf):采用 Minipack3N (Spectrum-4) 作为接入锚点。
3.2 L2 Cluster:模块化Fabric
L2 层作为 Pod 间的互联枢纽,由96个L1 Pods 横向级联而成,将集群规模扩展至 20,736 GPUs。
FTSW(Fabric Top Switch / Spine):每个Pod内部署 8台 FTSW,全集群共768台,Fabric互联矩阵如下:
3.3 L3 Backbone:8平面正交骨干网
为了解决超大规模网络的哈希冲突与布线复杂度,L3 骨干网采用了正交平面设计理念。
STSW (Super Spine Switch / Core):全网物理上划分为 8个独立的Spine平面,与 L1/L2 层的“8台 FTSW”一一对应,每个平面包含54台STSW,全集群共432台核心交换机。
全网覆盖:单台STSW 下行提供 96 x 400G 端口,一条链路直达一个L1 Pod,意味着任意一个Spine平面即可覆盖全网96个Pod(20,736 GPUs),实现了跨 Data Hall 级别的无阻塞高可靠互联。
PART 04
展望未来:ESUN与全以太网宏图
NSF解决了Scale-Out(横向扩展)的标准化问题,但Meta的野心不止于此在OCP 2025峰会上,Meta加入了 ESUN (Ethernet for Scale-Up Networking) 倡议,旨在攻克最后一块堡垒——用开放以太网彻底替代机柜内部的私有Scale-Up协议(如NVLink)。
面对目前由私有协议垄断的Scale-Up领域,Meta联合AMD、Broadcom、Microsoft等巨头,依托OCP与UEC(超以太网联盟)推动ESUN标准的落地,其核心在于定义一套支持内存语义(Memory Semantics)的开放以太网规范(详见前文《博通一统以太网江湖阳谋:SUE一超多强(字节Ethlink、NVLink与UALink)?》):通过优化帧报头(Efficient Headers)降低协议开销,并引入硬件级链路层重传(LLR)与拥塞信号(CSIG),在物理层之上构建满足极低延迟、超高带宽需求的无损(Lossless)传输平面,以满足极低延迟、超高带宽的内存访问需求。
在吉瓦级集群俱乐部中,Meta的NSF全面拥抱通用以太网和ESUN组合不同,Google Ironwood Superpod采用加速器芯片、互连拓扑、光交换结构、软件堆栈和部署模式之间高度协同垂直整合封闭生态护城河,依托基于OCS大规模光学电路交换的光学交换层底座、"3D+1D" Torus 拓扑组网实现了自研加速芯片如最新一代Ironwood (TPU v5p) 的规模化部署和极致发挥内部工作负载的物理性能。
从RoCEv2的工程磨合到DSF的极致工匠精神(F1赛车),再到NSF的开放工业化(保时捷911),Meta的网络演进史正是一部AI基础设施从“专用黑盒”走向“开放标准”的工业化缩影。随着NSF的落地与ESUN的推进,一个开放、高性能、吉瓦级的全以太网新纪元正在开启。
往
期
回
顾
三大超节点:昇腾384 VS 阿里磐久AL128 VS NVIDIA GB200 NVL72,网工视角,谁主沉浮?
博通一统以太网江湖阳谋:SUE一超多强(字节Ethlink、NVLink与UALink)? 媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡