
当前万卡集群成为AI大模型竞赛的“入场券”,10万卡集群正成为科技巨头竞逐的新高地。2024年底马斯克旗下xAI公司位于田纳西州孟菲斯市的Colossus超级智算集群(目前全球最大的单体全液冷数据中心)仅用时214天便顺利投产,其中首期10万H100芯片部署仅耗时122天,二期扩容更是压缩至92天,这相当于完成了传统IDC厂商需要18个月的基础设施建设。本文在基于xAI、NVIDIA、Supermicro等官方发布的技术资料以及国际权威技术媒体(如ServeTheHome、SemiAnalysis)的专家分析基础上与您从算力引擎、数据动脉、神经网络和动力心脏四个方面与您身临其境探索xAI Colossus这座超级AI工厂背后的奥秘。
PART 01
算力引擎:解构Colossus的计算核心
1.1 GPU计算节点:定制化Supermicro液冷系统
有点让人意外的是xAI Colossus集群并没有采用新房交钥匙产品——NVIDIA的DGX SuperPOD部署方式带来的软硬件生态便利,而是联合Supermicro进行定制化液冷服务器机柜,可能考虑到机柜级的计算密度、集群规模和热管理效率的缘故。

图1: xAI Colossus数据中心大规模部署的计算集群

图2: xAI Colossus数据中心单个POD模块(8个计算柜+1个网络柜)
Colossus最小模块化构建单元是定制化的Supermicro液冷机架,合计超过1500个机架逻辑划分成200个POD即每个POD内含8个机架。每个机架内主要核心组件有8台4U 通用液冷服务器、1U冷却管(红黑区分引入冷却液体和输出加热液体)嵌套于4U服务器之间、1台分布式部署配置了冗余的“水泵”CDU(液冷分配单元,配备管理单元和冗余泵,可监控流量、温度等关键参数,并连接到中央管理界面进行远程监控)等等。而机柜内每台4U的液冷服务器的核心配置如下:
8-GPU NVIDIA HGX托盘:采用超微定制液冷模块,每个托盘包含8个NVIDIA H100或Hopper GPU以及NVIDIA NVLink交换机,xAI所采用的具体型号极有可能是 SYS-421GE-TNHR2-LCC (基于Intel平台)或 AS-4125GS-TNHR2-LCC (基于AMD平台)的定制化版本。
CPU托盘:服务器采用双路x86架构,兼容Intel Xeon(最高350W TDP)或AMD EPYC(最高400W TDP)处理器。
可维护性:超微系统采用可维护托盘设计,无需将整机从机架上移除即可进行维护。每个服务器配备了四个可支持热插拔冗余电源
液冷设计:直接芯片液冷 (D2C) (覆盖GPU, CPU, PCIe交换芯片),尤其是主板集成了通常位于独立子板上的Broadcom PCIe Gen5交换芯片和创新性的加入定制液冷模块。
网络:每个服务器配备9个400GbE网络连接(8个AI网络专用NVIDIA BlueField-3 SuperNIC+1个通用CPU专用的Mellanox ConnectX-7网卡),总带宽达到3.6Tbps。
综上,每个4U Supermicro服务器合计有8片H100 GPU和2个通用CPU服务器以及对外提供3.6Tbps扩展带宽接入能力,而一个机柜密集部署了8台4U Supermicro服务器,单机柜的GPU承载量飙升至64块。

图3: Supermicro 4U液冷服务器内部结构(来源: ServeTheHome)
1.2 CPU辅助集群:支撑海量AI训练的关键配角
除了庞大的GPU集群,Colossus还部署了独立的、大规模的通用CPU计算集群,用于承担数据预处理、模型编译、作业调度、系统监控和用户登录等非核心训练任务 ,CPU集群由Supermicro 1U服务器组成,每个机柜可容纳多达 42台 1U服务器(每台服务器配备了2.5英寸前置NVMe存储),由于采用风冷设计产生的热量由机柜的后部热交换器(RDHX)统一处理后传递到数据中心的液冷循环系统中。

图4: xAI Colossus数据中心1U CPU计算服务器
PART 02
数据动脉:EB级全闪存并行存储矩阵
要让十万个GPU开足马力持续运转,一个海量、高速、且具备强大并行处理能力的存储系统如同军队的粮草库一样至关重要。Colossus为此构建了一套多供应商、分阶段演进的EB级存储集群。
2.1 硬件架构:告别HDD,全面拥抱NVMe
存储节点:存储系统的硬件基础由Supermicro 1U NVMe存储服务器构成,设计容量超过1 EB(Exabyte)。
物理组网:Colossus彻底摒弃了传统的HDD/SSD混合分层存储方案,整个存储集群完全采用NVMe SSD 作为存储介质,通过存算分离组网方式,通过一条专用的400GE存储网络保障了AI训练所需的极高IOPS和极低延迟。

图5: xAI Colossus数据中心内的Supermicro 1U NVMe存储节点
2.2 软件定义:VAST与DDN的双雄战略
Colossus的存储软件层采用了业界领先的软件定义存储方案,其核心是 高性能、可横向扩展的并行文件系统。这种架构允许多达数万个计算节点同时、高并发地访问一个统一的、共享的数据命名空间,是避免AI训练中出现存储I/O瓶颈的关键。与此同时xAI还采用了分阶段、多供应商的策略以应对不同时期的挑战:
第一阶段(Grok 3 Phase 1):在集群初期10万GPU的部署中,VAST Data 被明确指出是其核心数据平台,负责数据处理、模型训练、检查点(checkpointing)和数据存储等关键任务 。在10万卡集群建设初期一切为了速度,面对122天交付的极限挑战xAI选择了VAST Data作为快速上线和敏捷部署超大型系统的合作伙伴,估计看中的是VAST Data独特的“分离式、共享一切”(DASE)架构和闻名世界的处理I/O能力以及简单运维。
扩展阶段(Grok 3 Phase 2):随着集群规模扩展和业务对I/O苛刻需求,HPC存储领域的传统霸主DDN闪亮登场,DDN 提供了其旗舰产品EXAScaler (一个基于Lustre的成熟并行文件系统能够给Colossus带来了极致、可扩展的并行I/O吞吐能力)和Infinia 对象存储系统(作为PB级的全闪存对象存储和扮演“主数据湖”的角色——负责保管海量的原始数据集和模型归档。
采用VAST和DDN这两家并行文件系统领域的领导者,初期用灵活易部署的VAST保证项目速度,后期引入性能怪兽Lustre来应对I/O性能最严苛的挑战,同样也有多供应链策略分散供应链风险的战略考量,也有对未来更大规模的集群建设评估不同技术路线的战略考量。
PART 03
神经网络:剖析10万卡集群的Spectrum-X矩阵
3.1 以太网的胜利——为何是Spectrum-X?
当前建设10万张H100的超级AI算力集群可以选择的网络方案主要有三种:Broadcom Tomahawk 5、Nvidia Infiniband以及Nvidia Spectrum-X。下面我们来详细比较这三种方案的优劣。
InfiniBand的优势在于以太网并不支持SHARP(SHARP能将每个GPU需要进行的发送和写入次数减少2倍,理论上网络带宽可增加2倍)网络内缩减,但当时InfiniBand NDR Quantum-2交换机只有64个400G端口(理论上在完全互联GPU网络中最多支持65536个GPU,无法满足10万卡集群的部署),而每个Spectrum-X以太网的SN5600交换机有128个400G端口,Broadcom的Tomahawk 5交换机ASIC也支持128个400G端口。
Spectrum-X的主要优势在于原生支持英伟达各类加速软件栈(包括Cumulus、DOCA框架及AI通信库(如NCCL优化))来实现全栈性能调优,而无需像使用Tomahawk 5芯片一样需要工程师自己尽最大能力去优化网络拥塞以最大化释放硬件性能。Spectrum-X的缺点在于如果采用Spectrum-X就必须加价购买Nvidia LinkX产品线中的收发器,另外英伟达在第一代400G Spectrum-X中使用了价格更便宜的Bluefield-3来代替ConnectX-7作为临时解决方案,但前者要多耗电50W意味着每个节点需要额外增加400W耗电。
从公开渠道获取的资料Colossus集群采用英伟达400G Spectrum-X来部署无损以太网,其核心组件包括:
①NVIDIA Spectrum-4 SN5600:一款基于Spectrum-4 ASIC的专为AI优化的51.2Tb/s的2U以太网交换机,支持64个800Gb/s端口或128个400Gb/s端口,通过内置的硬件能力支持动态路由(Dynamic Routing)技术实现高效流量调度。
②BlueField-3 DPU:一款集成了ARM核心和网络加速引擎的智能网卡(SuperNIC),在硬件层面利用内置的硬件遥测(In-band Network Telemetry, INT)消息,与Spectrum-4交换机紧密协同实现了微秒级的带内主动拥塞控制闭环;在软件层面利用自身独特的乱序包重组处理能力与与交换机的自适应路由配合,不仅能将网络吞吐率提升至95%(远超传统以太网的60%),还能通过可编程拥塞控制技术实现AI训练任务之间的性能隔离。
③加速软件栈:深度融合英伟达各类加速软件栈(包括Cumulus Linux网络操作系统、DOCA(Data Center Infrastructure On a Chip Architecture)框架以及各种AI通信库(如经过优化的NCCL))来实现从网络底层到应用层面的全栈性能调优,为AI工作负载提供最佳的端到端性能。

图6: NVIDIA Spectrum-X 软件栈架构(来源: NVIDIA)
3.2 xAI colossus 10万卡集群组网推演
关于xAI colossus10万卡AI训练集群在物理网络组网上网上暂无过多公开资料分享,以下仅从前期分享过的阿里、腾讯、百度、字节、Meta等万卡集群的部署上共用的经验出发推测其可能会用到的部署方式,以下是其网络架构的几个核心技术细节:在物理网络层面采用业界标准化POD(Point of Delivery)组成:
(1)1:1无收敛比CLOS架构: 整个网络矩阵由 NVIDIA Spectrum-4 SN5600以太网交换机(2U交换机/51.2Tbps,支持64个800Gb/s端口或128个400Gb/s端口) 构建而成,严格按照1:1的无收敛比设计(32上行/32下行),800G交换机下行口通过特定的一分二AOC线缆拆分为两个400G端口接入服务器。
(2)业界标准化POD(Point of Delivery)设计: 模块化部署十万卡集群
①ToR交换机组: 8台ToR交换机构成一个交换机组。
②服务器接入: 每台服务器通过8张400G网卡接入8台TOR交换机,形成8个Multi-rail轨道。
③POD接入规模: 每台ToR的32个800G下行口被拆分为64个400G端口,共同服务于64台服务器的接入的512张GPU卡,类似这样子规模的POD接近200个才能确保十万GPU卡集群的部署。
(3)以Grok3据说用120K GPU(122,880个GPU (120 x 1024))训练而成来推演,
① 模型A (4-POD):最大化单个POD容量
● POD构成:一个POD由64台Leaf交换机和64台Spine交换机构成。
● POD容量:
○ 每台Leaf交换机下联64台服务器,一个POD共支持 64 × 64 = 4,096台服务器。
○ 每台服务器8个GPU,一个POD的GPU总容量为 4,096 × 8 = 32,768个GPU。
● Superspine:由128台Core交换机来实现这4个POD互联,最终构成一个支持131,072个GPU的集群。
② 模型B (10-POD):工程实践上的“标准POD”方案 (10-POD),考虑工程实际可落地性如匹配机房物理空间、控制故障域大小和渐进式部署。
● POD构成:一个POD由192台Leaf交换机和64台Spine交换机构成。
● POD容量:
○ 一个POD支持1,536台服务器。
○ 一个POD的GPU总容量为 1,536 × 8 = 12,288个GPU。
● Superspine:由160台Core交换机来实现10个POD的互联,最终构成一个支持122,880个GPU的集群。
架构总结:模型A (4-POD)
架构单元 | 设备类型 | 数量/单元 | 总计数量 |
|---|---|---|---|
集群整体 | POD | - | 4 个 |
单个POD | GPU | 32,768 | - |
服务器 | 4,096 | 16,384 台 | |
Leaf交换机 | 64 | 256 台 | |
Spine交换机 | 64 | 256 台 | |
核心层 | Core交换机 | - | 128 台 |
总计 | 128口交换机 | - | 640 台 |
架构总结:模型B (10-POD)
架构单元 | 设备类型 | 数量/单元 | 总计数量 |
|---|---|---|---|
集群整体 | POD | - | 10 个 |
单个POD | GPU | 12,288 | - |
服务器 | 1,536 | 15,360 台 | |
Leaf交换机 | 192 | 1,920 台 | |
Spine交换机 | 64 | 640 台 | |
核心层 | Core交换机 | - | 160 台 |
总计 | 128口交换机 | - | 2,720 台 |
(4)多轨优化(Multi-Rail Optimization):NVIDIA官方文档明确定义:“Rail-optimized design means a GPU node with multiple interfaces will put each GPU ‘rail’ (IB network interface) onto a different first level (LEAF) switch” 19。这句话概括了多轨优化的精髓:每张网卡(或称为一个“Rail”/轨道)都会连接到不同的Leaf层交换机上,然后每个网卡通过同轨道的Leaf层交换机与其他服务器的同序号网卡实现互联。
上述大致解析了AI训练网络的组网方式,其前端融合网络采用一张单独NVIDIA ConnectX-7 为服务器的x86 CPU系统提供了一个独立的400GbE连接,承载一个完全独立的融合网络(网络负责处理 存储I/O、带内管理、以及与外部网络的通信等所有非GPU核心计算的流量)。

图7: 服务器后端网络接口(NVIDIA BlueField-3 SuperNIC)

图8: NVIDIA Spectrum-4 SN5600交换机与高密度光纤布线

图9: 数据中心网络交换机矩阵
PART 04
动力心脏:支撑超级算力的电力与液冷工程
一个10万个GPU的集群将需要超过150MW的数据中心容量,并且在一年内消耗1.59太瓦时电力和高达1.239亿美元(按每千瓦时0.078美元计算),那么如何有效举措提高能效比和持续稳定的能源成为一个举足轻重的因素。
4.1 全面液冷:从芯片到机柜的散热革命
芯片级直接液冷(D2C):Colossus的核心散热方案是由Supermicro设计和集成的端到端直接液冷(Direct-to-Chip)系统 ——定制化的冷板(Cold Plate)直接覆盖单服务器上三大核心发热源:8颗H100 GPU+2颗x86 CPU+4颗Broadcom PCIe交换芯片 。
机柜内循环设施:每个计算机构成了一个独立的、闭环的液冷单元。
①冷却剂分配单元(CDU):每个机柜底部都安装了一台Supermicro CDU(集成冗余水泵和模块化可热插拔电源)——负责将服务器内部循环的、吸收了热量的“热”冷却剂与数据中心设施提供的“冷”水进行热量交换。
②冷却剂分配歧管(CDM):每个机柜两侧布置有垂直的歧管将来自CDU的冷却剂精确分配到机柜内的8台服务器,而每台服务器通过单独的快速插拔接头与歧管连接进一步提高了单台服务器可维护性。
③机柜级热量中和:每个机柜的后部都安装了后门热交换器(RDHX)能够将服务器中电源、网卡等剩余未被D2C液冷覆盖的热源实现“热量中和” ,同样风冷机柜级热量中和方案也应用于CPU和存储机柜。
随着技术的演进,Supermicro也推出了下一代DLC-2(Direct Liquid Cooling 2.0)技术:具备高达98%的热捕获率(CPU+GPU+内存+PCIe交换机+VRM(电压调节模块))、支持高达 45°C 的温水冷却、垂直CDM设计进一步释放机柜空间三大特点,为Colossus二期基于NVIDIA Blackwell架构的演进指明了方向 ,看来液冷技术已经从一个“可选项”演变为构建未来AI工厂的“必需品”。
4.2 电力保障:特斯拉Megapack的角色——电网的“稳定器”
初期10万GPU规模的Colossus集群估计总功耗预计在 150兆瓦至300兆瓦 之间 ,远远超出了当地电力公司(MLGW)的现有电网容量,因此项目初期不得不依赖现场部署的天然气涡轮发电机等临时供电方案 ,同时为了给数据中心各类设备提供稳定的电源,还大规模的特斯拉Megapack 电池储能系统 ,主要作用并非传统的备用电源(UPS)而是作为功率缓冲器。Megapack系统被部署在供电侧和服务器负载之间进行“削峰填谷”对外输出平滑、纯净稳定且可预测的电流。
PART 05
结论:一座“算力千兆工厂”的诞生
从深度定制的液冷计算节点到EB级的全闪存并行存储,从基于以太网的十万卡级别CLOS网络到用特斯拉的Megapack电池支撑的创新供电方案,Colossus的每一处设计都彰显了“第一性原理”的思考——即追求极致的AI训练性能和前所未有的部署速度。xAI Colossus一期工程仅仅花费214天建成20万卡GPU集群,为为Grok-3乃至Grok-4大模型的成功训练提供了强大动力。据说xAI Colossus二期集成了集成35万个GB200和GB300,整体能提供 50 exaflops 的计算能力(大约是世界上速度最快的10台超级计算机总和的七倍)。xAI的长期目标是将Colossus 2的规模扩展到100万个GPU,将Colossus 2打造成AI领域发展最快、算力最强的数据中心,为Grok大模型、下一代特斯拉全自动驾驶系统和Optimus机器人训练提供支持。