
AGI小咖
"作为Meta AI 网络架构系列融合篇,本文深度拆解 Meta 面向吉瓦级算力互联重构的 10x Backbone 架构——基于IP over DWDM(IPoDWDM)与光传输解耦理念,利用 ZR/ZR+ 相干光模块与 DC Metro 环网深度融合的去 DCI-BOX 光电底座;并依托 Open/R 路由系统与 SBT (Scheduled Bulk Transfers) 全局流量编排机制,重塑连接吉瓦级算力孤岛的 AI 骨干网大动脉。"
PART 01
MetaAI网络架构前瞻回顾
在《Meta AI网络架构前传:RoCEv2在Llama3万卡集群中的失效与救赎》中,我们分享了Meta在部署24K H100GPU集群的工程实践中发现传统RoCEv2在AI“低熵、突发、大象流”下的失效难题,尝试了从星型到三层Clos的拓扑变革,从E-ECMP到集中式TE流量工程的路由迭代,以及从DCQCN失效到接收端驱动流控的突破等一系列“填坑”工程实践经验,这些宝贵的“填坑”经验成为下一代网络架构的“原型”和“试验场”,加速定制化DSF与开放式NSF的诞生。
紧接着在《Meta AI网络架构续集:DSF,一台“榨干”以太网物理极限的“F1赛车”,却难做“保时捷911”》中,我们继续分享了Meta工程师基于前人“填坑”经验设计了全新的DSF无损确定性网络,DSF采用前后端物理隔离与双平面冗余设计,创新性地引入以太网域与交换网域的双域解构架构,利用信元喷射技术打破大象流瓶颈;深度联动自研FBOSS控制平面和VOQ+Credit硬件流控结合输入均衡模式,实现了微秒级精度的无阻塞调度与链路故障的分布式自愈,将确定性调度和链路效率推向了物理极限。
尽管DSF性能极致,但对深缓存、高吞吐、低延迟专用交换芯片的强依赖制约了“吉瓦级”超大规模AI数据中心集群扩展,为下一代拥抱通用以太网的NSF(非调度网络)埋下伏笔。
接下来在《Meta AI网络架构再探:NSF如何驾驭双柜NVL72超节点,重构吉瓦级AI底座?》中,我们分享了Meta面向吉瓦级集群(如Prometheus)重构的非调度架构(NSF)——基于浅缓存商用以太网(如搭载NVIDIA Spectrum-4 ASIC的Minipack 3N)和基于ORv3标准定制的高功率双机柜NVL72超节点(Catalina Pod)深度融合的高性能底座,依托原生支持自适应路由与Spectrum-X端网协同机制重构吉瓦级AI基础设施,完成了从专用定制向开放解耦的范式转移。
当NSF架构成功将单体集群扩展至数万张GPU时,新的物理矛盾出现了——能源。
一个包含8000个机柜的GB200 NVL 72集群(Catalina Pod)可能消耗超过1吉瓦(GW)的电力。在全球范围内,极少有单一园区能提供如此巨大的瞬时功率和相应的散热能力。因此,Meta必须将物理上分散在不同地理位置(如俄亥俄州、弗吉尼亚州、俄勒冈州)的数据中心,在逻辑上整合成一台“超级计算机”。这就要求连接这些数据中心的骨干网必须具备极高的带宽密度、确定性的延迟以及极高的能效比,以化解这一“能源-距离悖论”。
PART 02
架构分野:双骨干网策略
为了隔离不同SLA和流量特征的业务,Meta运营着两张物理上截然不同的骨干网:

图1:Meta骨干网流量增长趋势(EBBvsCBB)

图2:EBB技术演进里程碑(2016-2025)
如图所示,EBB网络自2015年正式投产以来,完成了从2016年仅连接5个数据中心的实验性网络,到2025年凭借前沿“C+L波段800G ZR+技术”全面支撑吉瓦级集群的跨越。EBB网络流量增长轨迹呈现出与AI模型参数量高度耦合的指数级爆发,深刻演绎了骨干网带宽与算力摩尔定律的齐头并进。
PART 03
10X Backbone全栈技术解构
4.1 传输设备重构:IPoDWDM与光传输解耦
不同于传统电信级架构采用“路由器+独立传输设备(DCI-BOX)”的级联模式,Meta激进地推动了IP over DWDM(IPoDWDM)技术的全面落地:通过在路由器端口直接集成400G ZR和800G ZR+ 相干光模块,彻底消除了中间的传输设备层级,实现了物理架构的极简与扁平化。

图3:引入ZR前后的网络拓扑结构
在此基础上,Meta的技术演进重点从仅适用于短距数据中心互联(<120km)的400G ZR模块,转向支持长距骨干网的新一代C+L波段800G ZR+ 相干光模块。后者通过引入更高阶的oFEC纠错算法与多速率自适应能力,原生支持1000—2000km的长距传输,具备了替代传统长途转发器、承载跨洲骨干网流量的特性。
根据Meta在ODNM 2025峰会上披露的数据,在1300公里以内的传输距离上,800G ZR+ 相干光模块(运行于600G或800G模式)的能效显著优于传统高性能转发器。凭借这一优势,800G ZR+已在Meta骨干网中实现89%的覆盖率,成为新一代骨干网的主流物理层介质。
为了适配ZR+ 相干光模块的物理特性,Meta彻底重构了光网络拓扑即抛弃了复杂的Mesh(网状网)拓扑转向极简的P2P架构,同时为了最大化发挥ZR+ 相干光模块在1000km内的传输效能,Meta移除了中间站点的ROADM设备改用Glass-Through(光直通)技术,配合集中式TE的光层跳数惩罚策略——即大幅增加经过中间光节点链路的路由开销(Metric),Meta在逻辑上强制流量优先选择低损耗的物理直连链路,不仅彻底消除了传统波长竞争,更实现了光层控制平面的极致简化。
4.2 IP平台演进:Scale-Up与Scale-Out演进
为了支撑物理层ZR+ 相干光模块所带来的海量带宽需求,Meta在10X Backbone的演进中采取了Scale-Up与Scale-Out双轨并行的策略。

图4:EBBScale-Up纵向扩展技术

图5:EBB Scale-Out横向扩展技术
4.3 控制平面:Open/R与全局流量编排
EBB的控制平面基于Meta自研的Open/R构建,作为一个基于KvStore的分布式消息总线,Open/R具备秒级收敛能力,支持承载TE控制器下发的非路由元数据,完美适配多平面的复杂拓扑。
另外,不同于传统SR-TE仅基于空间维度的CSPF算法,全局流量编排引入了SBT(Scheduled Bulk Transfers)机制——在SR-TE技术栈的基础上创新性地引入了“带宽日历(Bandwidth Calendar)”,让TE控制器能够为Llama4 Checkpoint等关键任务提前锁定未来的光传输路径与带宽资源,确保任务在预定周期内不受其他流量干扰,实现了从“尽力而为”到“确定性预约”的范式跨越。
4.4 拓扑演进:AI Backbone与城域环网
随着单体数据中心园区的电力容量逼近物理极限,Meta将骨干网架构正式升级为“AI Backbone”——在同城地理范围内通过将多栋物理隔离的数据中心进行超大带宽互联,构建出一个逻辑统一的吉瓦级超级集群。

图6:AI Backbone拓扑全景
4.4.1 DC Metro Architecture:城域环网的预构建
为了打破AI算力选址的物理约束,Meta摒弃了传统的长途直连模式,创新性地在核心区域预先铺设高密度的双光纤环网(Dual FiberRings)与预置POP点的组合架构——长途光缆不再直接进入数据中心,而是汇聚至环网上的POP点,这一组合架构设计与天翼云资源池就近接入云网POP异曲同工之妙:通过将数据中心与骨干网物理路径彻底解耦,新建AI集群无需等待漫长的长途光缆铺设,只需就近“热插拔”接入POP点即可快速复用骨干网的全球连接资源,极大缩短了服务等待时间。

图7:DCMetro环网架构
4.4.2 物理连接的三级阶梯
在AI Backbone的构建中,Meta根据物理距离制定了精细化的三级光互联标准,以在成本、延迟与光纤资源之间取得极致平衡:
PART 04
结语
面对从“计算墙”到“能源墙”的挑战,Meta利用ZR+相干光模块与DC Metro环网构建了极简的点对点 (P2P) 去 DCI-BOX光电底座,依托Open/R 路由系统与以SBT (Scheduled Bulk Transfers) 为核心约束的集中式流量工程 (TE) 深度协同,成功重塑了连接吉瓦级算力孤岛的 AI 骨干网大动脉。
Meta在10X Backbone上实现800G ZR+相干光模块规模化商用的基础上,积极推动下一代1.6T ZR+ 相干光模块的标准化与规模化落地,旨在进一步逼近光纤传输的频谱效率与香农极限。
展望未来,AI 骨干网有望迈入基于光电路交换(OCS)的全光网络时代,在中间节点实现无需光电转换的全光交换(All-Optical Switching),为未来构建一张高吞吐、低延迟、跨地域的吉瓦级AI骨干专网奠定坚实的物理基础。
往期推荐
三大超节点:昇腾384 VS 阿里磐久AL128 VS NVIDIA GB200 NVL72,网工视角,谁主沉浮?