
AGI小咖
本文深度复盘 Google TPU 智算集群的网络架构演进,重点剖析 3D Torus 拓扑与 OCS(光交换)技术的协同机制。 文章从最小拓扑单元 4x4x4 Cube 出发推演复盘 TPUv4 4096 Pod标准3D Torus环面与 TPUv7 9216 Pod的Twisted 3D Torus环面组网拓扑背后的原理和数学实现, 随后对比TPUv5e/v6e 的2D Torus Mesh性价比组网架构,揭示 Google 如何在万卡集群规模下实现确定性低延迟与极致 TCO(总拥有成本)优化,并对比 AWS 与 NVIDIA 的异构技术路线 ,结合上下游供应链生态与CPO技术趋势分析,展望未来TPU架构“芯片出光、全光直连”全新范式。
1
TPU超节点演进前序回顾
《Google TPU前世今生:从AlphaGo到9216卡Ironwood超节点,媲美英伟达》文章中我们分享了从 AlphaGo 背后 TPUv1 演进至OCS+ ICI + 3D Torus 加持、媲美 GB200/GB300的 TPUv7(9216卡Ironwood超节点),同时对比阿里和英伟达,马太效应和正向飞轮下谁才是AI时代既租售铲子又挖金子的主。
接下来我们基于48台OCS如何撑起4096卡的TPU集群Google TPUv4 pod的Google发布的论文为奇点,剥洋葱式一步一步串讲4096卡TPUv4集群到最新的9216卡TPUv7集群,以及背后的2/3D Torus + OCS光交换 + ICI网络演进和上下游成熟产业链相得益彰。
2
基石:TPUv4 与3D Torus/OCS 实现
4096卡的TPU集群TPUv4 Pod是Google OCS光交换网络架构成熟应用非常经典的一个标志性产品,也是我们为数不多在公开渠道能够看得到经典应用案例,接下来我们从最小单元模块出发推演至宏观的集群架构。
2.1 最小拓扑单元:4×4×4Cube(立方体)
Google TPUv4 Pod架构组网中的最小拓扑单元是TPU Cube(或 4×4×4 Cube),虽然物理形态上通常对应一个服务器机柜,但在逻辑上它是一个严密的整体:
2.2 单个Cube链路分层与光电边界分析
在一个 4×4×4 的标准Cube中,ICI 链路根据物理位置和传输介质被严格划分为两类,构成了TPU架构独特的光电混合网络:

图1 TPUv4 4x4x4Cube互联逻辑与光电接口分布
TPU位置类型 | 数量(个) | 几何特征 | 内部铜缆链路数 | 外部光纤链路数 | 单Cube光链路总数 |
|---|---|---|---|---|---|
顶点(红色) | 8 | 立方体8个顶点 | 3 | 3 | 8*3=24 |
棱边(蓝色) | 24 | 12条棱的中间 | 4 | 2 | 24*2=48 |
中心面(绿色) | 24 | 6个面的中心 | 5 | 1 | 24*1=24 |
内核心 | 8 | 被包裹在核心内 | 6 | 0 | 8*0=0 |
总计 | 64 | 96 |
表1:TPUv4 4*4*4 Cube的96条光链路推算过程
2.3 TPUv4 Pod 集群48台OCS光交换机推演
上一章节中我们了解到TPUv4 Pod的最小拓扑单元为4x4x4 Cube即64颗芯片/Cube,那么为了构造4096个TPUv4 Pod的话,合计需要64个Cube。另外,按照每个96 Links/Cube核算,合计需要64 Cubes × 96 Links/Cube = 6144 条光链路。
Google公开的论文中提到其自研的PalomarOCS通常配置为 136 × 136 端口,但在工程上通常按 128 端口 有效容量计算(符合二进制 2^7 规整性,且预留 8 个冗余端口),因此所需的OCS数量为:6144 Links ÷ 128 Ports/OCS = 48 台 OCS。
为了在物理层严格控制和适配3D Torus,48台OCS被严格化为为三个正交组分别承载X/Y/Z轴不同维度的流量,以X轴组为例,包含16台OCS,遵循“同维互联”原则,每一台OCS仅仅负责连接和承载所有Cube上±X 面链路,构建 X 维度的环形闭环流量,依此类推Y轴组、Z轴组也一样采用物理正交隔离组网,确保了光路在动态重构时始终维持X/Y/Z三维空间的数学正交性,简化了上层软件路由算法和有效规避了网络死锁的风险。
在3D Torus环网中OCS 充当了巨大的动态配线架,负责物理实现 Torus 的几何特性,离开一个节点X+ 接口的数据,必然进入带有步长相邻节点(标准3D Torus组建TPUv4 Pod采用步长为1与相邻节点紧耦合标准环面,升级版3D Torus组建TPUv7 Pod采用可变步长N构建扭曲环面)的 X- 接口,对于处于网格边缘的TPU(例如坐标 X=End),其 X+ 接口通过OCS的光路调度物理直连回坐标 X=0 的TPU的 X- 接口形成 “首尾闭环”。

图2:TPUv7 64TPU的±X, ±Y, ±Z拓扑
2.4 TPUv4 Pod核心Palomar OCS微观构造
TPUv4 Pod组网架构中物理核心是Palomar OCS,与市面上无损网络交换机不同的是OCS不读取数据包头、不进行光电转化,仅仅只是物理层面的“光线反射镜”,在Palomar OCS机箱内部光信号的传输路径呈现出一个经典的“W”形状,最大限度减少插入损耗和实现任意端口间的互联。

图 3 OC SW形光路原理示意
W形光路设计 :光信号发送准直器 > 二向色分光镜 > 2D MEMS 阵列 I > 二向色分光镜 > 2D MEMS 阵列 II> 二向色分光镜 > 光信号接收Output 准直器。W形光路设计中的两大核心组件是2D MEMS和二向色分光镜,其中两级2D MEMS设计实现了三维空间内的精准光束操纵,二向色分光镜作为允许1310nm业务光透射,同时反射 850nm 监控光的核心滤光组件,与Injection Module + Camera Module联动实现实时带内运维监控和驱动2D MEMS的微秒级微调,这一套闭环控制和实时主动对准机制也是Palomar OCS能够大规模商用的核心壁垒之一。
3
架构演进:Twisted 3D Torus和2D Torus
随着单芯片TDP提升至600W且集群规模突破 9,216 卡,TPUv7 (Ironwood) 面临着更严峻的散热与延迟挑战,Google 在架构上进行了两项重大升级: 拓扑算法的扭曲 与 集群规模的极致扩张 。
3.1 TPUv7 Twisted 3D Torus 拓扑和9216卡推演
相比TPUv4 Pod的4096卡,TPUv7 Pod集群规模达到9216卡,其最小拓扑单元还是经典的4x4x4 Cube即64颗芯片/Cube,合计需要9216/64 =144 Cubes。另外,按照每个96 Links/Cube核算,合计需要144Cubes × 96 Links/Cube = 13,824 Ports。那么需要多少OCS呢?据称Google还是采用48台OCS,正如下图 "TPU v7 Connections to OCSs" 清晰地展示了 Cube A 如何将这 96 条链路扇出连接至中间的 48 台 OCS。

图4:TPUv7 Cube A与Cube B连接48台OCS
为了承接这一海量连接需求,Google 将每台 OCS 的规格升级为 144×144 端口(完美覆盖 144 个 Cube 的节点数,但从供应链端采购上看实际落地推测实际落地可能是320*320规格的OCS),同时将 OCS 与 Cubes 之间的Twisted 3D Torus连接带宽提升至 800G/1.6T,确保了超大规模集群下的无阻塞通信。
另外在拓扑结构上,TPUv7升级了标准的3D Torus,引入了步长的概念来构建了Twisted 3D Torus (扭曲环面) 拓扑以降低通信跳数,最优扭曲步长 N 通常由维度大小决定(公式近似为N ≈ Dimension_Size / 2)。

图 5 标准 2D Torus 与 Twisted 2D Torus 拓扑对比
理解了Twisted 2D Torus的步长跳跃原理后,我们将视角升维至Twisted 3D Torus。下图展示了 TPUv7 架构中 128 TPU Slice (4x4x8 拓扑) 的实际连接形态,重点描绘了 Cube A与 Cube B之间的扭曲互联,直观揭示了 OCS 如何实现物理位置与逻辑拓扑的彻底解耦。以图中 Z 轴(绿线)为例,位于 Cube A边界的节点 TPU (4,1,4) 并没有像标准3D Torus 4x4x4 拓扑那样回环至自身的起点 TPU (4,1,1),而是通过Twisted 3D Torus和OCS构建类似于“虫洞”的 跳跃式链接 至逻辑相邻的 Cube B 起始节点 TPU (4,1,5)上。

图 6 :TPUv7 128TPU拓扑
3.2 TPUv5e/v6e 与 2D Torus Mesh
针对延迟敏感的推理任务及中小规模训练场景,Google 推出的 TPUv5e 与 TPUv6e (Trillium) 芯片组采用了追求极致性价比的精简架构设计策略,通过移除高成本的 OCS 光交换层和静态的2D Torus Mesh固定互联架构, 单个Pod最大支持256个TPU, 即由 4 个液冷机柜组成的逻辑 16×16 拓扑网络,而物理层面实现严格X/Y轴的介质分层设计,其中 Y 轴维度的垂直互联完全依赖服务器内部的 PCB 蚀刻背板及连接器实现超低延迟通信,而 X 轴维度的跨机柜横向互联则通过机柜面板上的 QSFP-DD DAC 无源铜缆完成,最终利用长距离线缆将首尾机柜物理连接以闭合环路,从而构建起完整且具备确定性带宽的 2D Torus网络。

图 7 TPUv5e 液冷板与接口布局
4
行业格局深度对比与供应链验证
4.1 Google (ICI) vs AWS (Trainium) vs NVIDIA
维度 | Google TPU (v4/v7) | AWS Trainium (Trn2/3) | NVIDIA (H100/GB200) |
|---|---|---|---|
互联协议 | G-ICI (私有轻量级,Credit-based) | NeuronLink (环) + EFA/SRD (以太网) | NVLink + InfiniBand/RoCE |
网络层级 | 物理隔离:ICI和DCN存储分离 | 相对融合:内部2D Torus,外部走 EFA | 分层架构:Scale-up 与 Scale-out 分层 |
故障恢复 | 物理重构:OCS 旋转镜面隔离坏点 | 协议重传:SRD 协议处理乱序与多路径重传 | 协议重传:依赖IB/RoCE 重传机制 |
软件耦合 | 强耦合:XLA 编译器需感知物理拓扑 | 解耦:软件层网络扁平化,依赖底层硬件重传 | 解耦:CUDA 生态屏蔽底层拓扑差异 |
核心哲学 | 静态极致:通过OCS光交换网络构建确定拓扑 | 动态灵活:依靠以太网多路径解决拥塞 | 带宽堆叠:顶级芯片提供无阻塞带宽 |
表2:Google TPU VS AWS Trainium VS NVIDIA H100/GB200
4.2 行业壁垒:为何难以复制 Google 模式?
Google TPUv7 Pod真正的护城河在于构筑了从物理原子到应用生态的垂直整合闭环:
4.3 供应链:OCS 生态的全面产业化
根据最新的权威券商研报及供应链深度调研结果显示,Google OCS 的大规模部署已经得到了产业链核心环节的全面交叉验证,构建起了一个从底层芯片到整机集成的稳固生态系统:在底层的物理执行单元层面,以 Silex Microsystems(赛微电子子公司) 为代表的头部 MEMS 代工厂已攻克了 2D MEMS 微镜阵列的高良率量产难题,确保了从 TPUv4 到 TPUv7 世代实现光束精准偏转核心元件的持续供应与技术迭代;与此同时,在整机集成与架构演进方面,以 光迅科技 为代表的厂商已具备 192x192 端口 MEMS-OCS 的交付能力,而 德科立 作为核心集成商 Lumentum 的合作伙伴,正积极推进下一代 320x320 端口超高密度 OCS 的研发与送样,这一高密度趋势与 Google 追求网络架构扁平化的长期愿景高度契合;在精密光学控制环节,以 腾景科技 为代表的厂商通过切入 Tier-1 供应链体系,提供了用于分离 850nm 监控光与 1310nm 业务光的二向色分光镜,补全了实现 OCS 高精度闭环控制系统的关键组件;最后,配合以 中际旭创 为代表的 800G/1.6T 高速光模块厂商,成功打破了 I/O 瓶颈,确立了 TPUv7 集群带宽跨代升级的物理基础。受益于上下游产业链合作共赢生态让Google能够成功落地“硬件即服务 (HaaS)”的金融工程创新:将 OCS 确立为折旧期远长于 GPU(4-5年)的长期基础设施资产,有效解决了算力集群快速迭代与数据中心 15 年租赁周期之间的错配问题,进而从系统层面降低了长期 TCO。
5
架构演进:迈向 CPO 与全光互联的后摩尔时代
随着 TPUv8 及其后续架构的演进,单通道 SerDes 速率突破已 224Gbps 并向 448Gbps 迈进,传统依赖 OSFP 光模块的电气互连已逼近物理极限,CPO(Co-Packaged Optics,共封装光学)将成为突破 I/O 物理边界的必然技术路径。
或许在未来的Google TPU架构中我们预计将见证 Google 3D Torus + OCS 系统迈向“芯片出光、全光直连”的全新范式:光引擎通过异构集成直接封装于 TPU 基板之上,光信号无需经过高损耗的板级电传输,而是从芯片封装直接引出,经由高密度光纤汇聚至机柜后方的盲插背板,无缝对接新一代 320×320 甚至更高维度的OCS 光交换网络。
在后摩尔定律时代,面相AGI的终极算力形态是属于追求极致兼容性的“以太网/InfiniBand 通用生态”,还是属于像 Google 这样将光子技术垂直封装进芯片的“封闭花园”呢?