
2025年9月23日,英伟达宣布了对OPENAI最高1000亿美元的投资计划,该消息刺激下引爆英伟达的总市值飙再创历史新高逼近4.5万亿美元。
以下这张图清晰的展现了这个由“大模型——云基建——算力芯片”三巨头构建的三角游戏闭环,三巨头通过动辄展开价值千亿美元的合作构建下一个AI算力帝国的紧密三角关系。

图1:“无限金钱循环”示意图,展示了资本在OpenAI、甲骨文和英伟达之间的流动闭环
从Dennys餐厅一张4万美元的商业蓝图到如今一座价值4万亿美元的算力帝国,站在4万亿美元的巅峰之上面向来自西方世界的追赶者,英伟达将如何加固其壕堑,捍卫这座4万亿的AI算力帝国呢?接下来的万字图文中我们将带您一探究竟。
4万亿美元AI帝国路上四大杀手锏助力英伟达在披荆斩棘的路上铸造强有力的铠甲: 硬件/芯片 (Hardware/Chips)、软件/生态 (Software/Ecosystem)、高速互联网络 (High-Speed Interconnects)、“拎包入住”式的AI全栈解决方案 (Full-Stack Solutions) 。
新时代“黄氏定律”继续源远流长和持续发光发热,以每两年一代的形式持续进行颠覆性的架构迭代(Hopper → Blackwell → Rubin)进一步拉开与竞争对手的身位。

图2:NVIDIA在GTC 2025上发布的GPU架构路线图
随着AI从被动的“信息处理器”向主动的“任务执行者”演进,一个被称为“ 代理式AI ”(Agentic AI)或“ 推理引擎 ”(Reasoning Engines)的新时代正在来临。新时代“ 代理式AI ”任务对AIinfra基础设施领域提出了全新挑战,尤其在传统代理式AI的预填充(Prefill)、解码(Decode)两个阶段尤为突出:
●预填充(Prefill)阶段: 当用户发出一个复杂的指令时,AI系统需要首先处理这个初始提示(prompt)以及所有相关的背景知识或上下文(context),这个理解用户任务的初始化过程是一个严重依赖浮点运算能力(FLOPS)计算密集型的过程,对内存带宽要求较低。
●解码(Decode)阶段: 理解完题目之后系统随之进入解题的演算、推理出最终答案的过程,AI大模型通常是一个token接一个token地生成的一个严重依赖内存带宽密集型的过程,对内存读写速度要求极高而浮点运算能力(FLOPS)要求较小,恰恰与与预填充(Prefill)阶段相反。
传统单一GPU架构无法高效兼顾上述两个阶段完全相反的对计算和内存资源需求,导致预填充时HBM闲置,解码时计算单元利用率不足,造成严重的资源浪费与效率瓶颈。
面对代理式AI和具身智能时代对于AIinfra基础设施领域的挑战,英伟达推出下一代Rubin平台(“VeraCPU+RubinGPU(R200)+RubinCPX+NVLink6.0”等核心组件组成),其核心思想“解耦服务”(Disaggregated Serving)——将推理过程的不同阶段,分配给不同类型的、经过专门优化的、且成本结构迥异的芯片来处理。

图3: 解耦推理架构示意图,展示了为不同任务阶段选择合适的GPU
即通过“Rubin R200+Rubin CPX”这一专用芯片组合方案将推理过程的预填充(Prefill)、解码(Decode)两个不同的阶段来分别处理:
●解码之王 (Rubin R200): 一款不计成本、采用3nm工艺和HBM4内存的旗舰GPU,唯一使命是在内存带宽密集型的解码阶段提供极致性能。
●预填充专家 (Rubin CPX): 一款成本优化的全新芯片,放弃昂贵HBM改用GDDR7使其内存带宽远低于R200,但保留强大计算核心(30PFLOPSFP4),专为计算密集型的预填充阶段提供高性价比算力。

图4: Vera Rubin NVL144 CPX的机架与计算托盘细节:Rubin、Vera、Rubin CPX等核心组件的布局
以下是Rubin平台下的新一代芯片(R200与CPX)相较于前代(Hopper与Blackwell)的代际演进与专业分工:
特性 | 英伟达 Hopper (H100) | 英伟达 Blackwell (B200) | 英伟达 Rubin (R200 预测) | 英伟达 Rubin (CPX 预测) |
|---|---|---|---|---|
AI性能¹ | 4 PFLOPS (FP8) | 20 PFLOPS (FP4) | ~50 PFLOPS (FP4) | ~30 PFLOPS (FP4) |
内存类型 | HBM3/HBM3e | HBM3e | HBM4 | GDDR7 |
最大内存容量 | 141GB (H200, 6-stack) | 192GB (8-stack) | 432GB (12-stack, 预测) | ~128GB (预测) |
内存带宽 | 4.8 TB/s (H200) | 8 TB/s | ~20.5 TB/s (预测) | ~2 TB/s (预测) |
互联技术 | 第四代 NVLink | 第五代 NVLink | 第六代 NVLink | 第六代 NVLink |
一篇论文引发百亿豪赌,从六年“绝望之谷”到如今的生态之王——英伟达历史上最关键的战略转折源于2003年斯坦福大学的一个研究团队在计算机图形学顶级会议SIGGRAPH上发表的论文—— 《BrookforGPUs:StreamComputingonGraphicsHardware》 。
如今穿越周期蓦然回首,我们发现英伟达真正的壁垒,早已超越了芯片硬件本身的速度与激情,而是NVIDIA的整个计算生态,其基石则是由 CUDA平台 所一手缔造的、几乎无法撼动的开发者迁移成本。NVIDIA的整个计算生态,由底层的CUDA平台(地基)以及运行于其上的CUDA-X库系列(摩天大楼)所构成。
CUDA 是底层的并行计算平台和编程模型,为开发者提供了直接访问GPU硬件并行处理能力的接口。
CUDA-XAI 则是在此之上,针对特定应用领域的高度优化库与工具集合,覆盖了从数据分析(DA)、机器学习(ML)到深度学习训练(DLTRAIN)与推理(DLINFERENCE)的全流程。
正是围绕这些CUDA-X库(如如cuBLAS(CUDA基础线性代数子程序库),cuDNN(深度神经网络库)、TensorRT-LLM(大语言模型推理优化库)、NCCL(多GPU/多节点通信库)等),其麾下超过400万的开发者军团编写了数以亿行计的深度依赖代码,形成了不可估量的迁移成本以及无形中构成的“代码壁垒”。

图5:NVIDIA CUDA-X生态系统概览:建立在CUDA基础之上的AI和HPC加速库集合
CUDA-X库技术栈进一步支撑了整个上层生态,当今全球主流的AI框架(Frameworks)都对其进行了深度优化如PyTorch和TensorFlow,顶级的云ML服务(Cloud MLServices)也依赖其作为核心如AWS SageMaker和Azure ML,最终在生产部署(Deployment)环节同样离不开它的加速如TensorFlowServing。同样不可或缺的支撑整个庞大软件帝国的无处不在的硬件部署如图5所示,无论是普通硬件服务器戴尔、惠普的个人工作站(Workstation),思科、HPE的服务器(Server),还是AWS、Azure、GoogleCloud等主流公有云(Cloud),英伟达的计算平台已成为这一切得以运行的行业标准硬件底座。
与此同时活跃的开发者社区、海量的教程文档、数万名认证专家构成了超越时间和空间的技术CUDA技术后援团,极大地降低了新开发者融入的门槛,同时又以指数级难度增加了存量用户“出走”的成本。竞争对手所面临的真正壁垒,并非简单地复制CUDA的API——例如AMD可以通过其ROCm平台中的HIP(Heterogeneous-computing Interface for Portability)工具在技术上实现对CUDA代码的转换和兼容。
但是真正的难以转换的成本是认知和文化层面的,举一个再熟悉不过的例子:当一个开发者在使用CUDA时遇到一个棘手的新问题,他可以求助于全球范围内数以百万计的StackOverflow问答、数以千计的GitHub开源项目以及几乎所有顶尖大学计算机系都默认教授的课程等,无论是在时效性、参考资料的丰富性、答疑-解难的成就感层面都是替代平台暂时所无法比拟的。同样选择一个替代平台则意味着放弃这个过去二十年积累下来的、活生生的、庞大的集体智慧宝库,这种由社区和时间共同构建的 认知惯性 和网络效应 ,是任何竞争对手都难以在短期内通过资本投入复制的。
在2025年8月发布的 CUDA Toolkit1.3.0 ——一个包含了CUDA核心平台与关键CUDA-X库的软件包中英伟达引入了更高层次的Tile-Based编程模型,同时积极直面来自谷歌OpenXLA等硬件无关编译器的挑战——在自家生态内主动提供更高级的编程范式。
还有一点竞争对手暂无法提供的体验:CUDA Toolkit1.3.0 的工具包还历史性地将服务器与嵌入式Arm平台工具链整合为一,实现了从云端(数据中心)到边缘AI(机器人、自动驾驶)的端-到-端生态战车上锁定,进一步将开发者更长久地保留在生态之内。
随着AI大模型走向“大力出奇迹”的规模化竞争,GPU之间有效的通信效率成为新的瓶颈。一次69亿美元的收购开启英伟达的第二代“印钞机”,每年为英伟达带来300亿美元的营收和带来源源不断强劲现金牛。
2019年3月,英伟达宣布以约69亿美元的现金收购以色列网络设备公司 Mellanox Technologies (InfiniBand高速网络技术的绝对领导者),同时将GPU与Mellanox的网络技术深度整合进入数据中心业务板块,后来数据中心产品在市场上大放一彩,业绩屡创新高,成为AI巨擘中最具商业潜力、最璀璨夺目的皇冠上的明珠,2025年仅仅第三季度数据中心业务的利润就足以“回购”四个Mellanox Technologies。根据IDC在2025年发布的报告,英伟达的数据中心以太网交换机业务在2025年第二季度收入同比飙升647%,达到23亿美元,使其以25.9%的市场份额,首次登顶该细分市场,超越了Arista和思科等传统巨头。
整个AI在网络领域的竞争格局主要从Scale-up和Scale-out两个方面来区分和阐述:
●Scale-up (纵向扩展/节点内): 通过NVLink等后端网络技术将单节点内多颗GPU虚拟化为一颗巨型统一加速器,以支撑张量与模型并行,是突破单卡显存瓶颈、训练万亿模型的关键。
●Scale-out (横向扩展/节点间): 通过InfiniBand等前端网络技术,将海量计算节点高效互联成一个大規模分布式集群,以支撑数据并行,是缩短大模型总训练时间(Time-to-Train)的关键。
英伟达的战略是通过其专有或高度优化的解决方案(NVLink用于Scale-up,InfiniBand/Spectrum-X用于Scale-out)来同时主导这两个领域,进一步提供一个端到端的、性能最优的“AI工厂”方案。而挑战者联盟的对策则是针锋相对地为这两个平面分别创建开放的行业标准—— UALink联盟 旨在打破NVLink在Scale-up领域的垄断,而 Ultra Ethernet Consortium(UEC) 则致力于将以太网演进为Scale-out领域的王者。
在Scale-up层面通过第五代NVLINK和NVswith组合实现高带宽、低时延、无阻塞的GPU互联网络。伴随着Blackwell架构推出的 第五代NVLink技术 :NVLink5.0为每颗GPU提供1.8TB/s双向总带宽(是上一代Hopper架构(900GB/s)的两倍,更是PCIe5.0x16带宽(128GB/s)的14倍以上),由18条100GB/s链路构成,实现GPU间无瓶颈直连。

图6:NVIDIA NVLink技术演进路线图
NVSwitch 采用无阻塞交换架构:通过多个NVSwitch协同工作将多达576颗GPU无缝聚合成单一NVLink域,进而在物理集群虚拟化为单一巨型GPU。
为了规避了传统模式下GPU/CPU介入带来的高延迟与网络拥塞, NVIDIA SHARP 颠覆性地通过NVSwitch实现“网络内计算”,将All-Reduce等集合通信操作直接在交换机硬件中完成,进一步显著提升了大规模并行训练的效率。
为了解决了传统以太网应对AI“大象流”和因ECMP哈希熵不足导致的链路拥塞和网络热点问题,英伟达在Scale-out层面采用双轨战略,即通过InfiniBand专用硬件与拥抱开放以太网络Spectrum-X两条产品线同时演进各自独立实现GPU集群和GPU集群间的高速互联、无阻赛网络。两条齐头并进的产品线具体实现如下:
●一方面通过收购Mellanox获得的 InfiniBand技术 服务于追求极致性能的传统HPC和AI客户,以其极低的延迟和高带宽成为超级计算机互联首选。
●另一方面Spectrum-X 作为面向AI云的端到端以太网平台,通过Spectrum-4交换机与BlueField-3DPU深度耦合,专门为了解决标准以太网应对AI“大象流”时的拥塞与性能瓶颈。
Spectrum-X通过以下关键技术解决AI“大象流”痛点:
1.RoCE自适应路由 (Adaptive Routing): Spectrum-4交换机实时监控并动态选择最不拥塞路径(逐包HASH负载均衡,非传统的基于五元组的逐流HASH负载均衡),实现端到端智能负载均衡和最大化窄干端口容量性能。事实上,自研动态负载均衡与自适应路由,已成为头部云厂商构建大规模智算集群的共识,用以规避传统ECMP热点,正如我们在前期分享的《字节跳动MegaScale万卡集群复盘与推演》一文中所详细介绍的。
2.DPU硬件卸载乱序重排: BlueField-3DPU在硬件层面高效重排序RoCE乱序包,对主机CPU透明,彻底卸载乱序处理负担,确保应用接收有序流。
3.端到端拥塞控制: 平台实现交换机-DPU闭环拥塞感知与控制,DPU智能调整注入速率,从源头避免网络拥堵。例如,我们在前期分享的《万卡算力网络破题之道——腾讯星脉网络篇》一文中就曾提到,其星脉网络便是通过两个控制器来实现端到端的拥塞控制,详情可以查看该篇文章。
无论客户选择专用IB网络,还是基于开放以太网的Spectrum-X产品,都在英伟达的有效射程范围”,进一步成功地将开放标准转化为自身的商业护城河。
为了将这一优势延伸至下一个数量级,英伟达在2025年又悄然完成了一次关键的“人才与技术收购”:以超9亿美元的现金和股票,聘用了AI芯片互联架构先锋 Enfabrica (一家专注于十万GPU级数据中心互联技术、旨在将分布式计算虚拟化为单一系统的初-创公司)的核心团队和技术许可,强化加速计算互联技术尤其是从机架级向数据中心级互联层面,进一步将其竞争壁垒提升至一个全新的维度。
与此同时面对AI工厂日益增长的能耗挑战,英伟达正加速在其网络交换机中部署 硅基光电子(Silicon Photonics) 技术。通过共封装光学((Silicon Photonics))将光子引擎直接集成入交换机芯片封装中,极大地缩短了电信号传输路径,据称可将能效提升3.5倍,为未来下一代数据中心“可持续计算”提供关键支撑的战略布局。
当然也有基于上述三大杀手锏的组合提供“拎包入住”式的AI全栈解决方案(Full-Stack Solutions),如DGX SuperPOD和GB200 NVL72,深刻演绎了从“卖铲人”到“AI工厂”的角色转变。
“AI工厂”的蓝图始于底层芯片(BlackwellGPU、GraceCPU、BlueFieldDPU),通过自研的高速互联技术紧密耦合,最终以DGX SuperPOD这样的机架级系统形态交付。
而这种垂直整合的巅峰之作—— DGX GB200 NVL72系统 :在一个完全集成的液冷机架内,通过第五代NVLink和NVSwitch技术将72个BlackwellGPU和36个GraceCPU紧密地连接成一个单一的、巨大的NVLink域,对外呈现为一台拥有13.5TBHBM3e内存和1.4EFLOPSAI算力的巨型AI超级计算机。相比于客户单独采购这些独立组件后入大量的工程资源和时间去进行系统集成、软件优化和兼容性调试,这样子的交钥匙的即可拎包入住DGX GB200 NVL72系统极大地延长了“ 价值实现时间 ”(Time-to-Value)¹。
以AMD突出内存容量和性价比的差异化竞争,英伟达最大客户(谷歌(TPU)、亚马逊(Trainium/Inferentia)、微软(Maia)等)在加速自己的芯片自研进程,同时还有来自UALink与UEC开发组织在Scale-up和Scale-out领域发起突围,这些昔日的对手、最大的客户,也有亦敌亦友的互联网巨头们组成了挑战者联盟已集结完毕,正对英伟达的王权宝座发起挑战,我们一起来逐一解剖一下其中的奥秘。
在硬件层面,AMD通过 内存容量和性价比 两个方面实现关键市场的突围和开辟差异化竞争优势,具体产品实现和后续产品演进方向上如下:
●产品实现层面: 基于CDNA 3架构的MI300X加速器,通过先进的多芯粒(chiplet)设计集成了高达192GBHBM3内存(峰值带宽5.3TB/s),在处理巨大上下文窗口(Context Window)的模型时能提供更优的总拥有成本(TCO),尤其在面对内存容量高度敏感的推理场景的客户相比英伟达H100优势显著,权威机构分析有望2025年底前给数据中心GPU市场带来10%的市场占有率。
●“内存为王”产品激进策略演进层面: 下一代基于3nm工艺的MI350X,将内存提升至288GB HBM3E(带宽8 TB/s),同时原生支持FP4/FP6精度以提升推理效率。而未来的MI400系列,则规划采用多达12个HBM4内存堆栈,提供惊人的432GB容量与19.6TB/s的内存带宽继续加码HBM内存护城河。
在软件层面ROCm平台的战略定位并非是要取代CUDA,而是致力于成为一个开放、可靠的“第二供应商”(类似Linux),对于 拥有顶级工程团队的超大规模云服务商(Hyperscalers) 上来说极具吸引力,尤其是在与NVIDIA的采购谈判中增加议价能力和优化总体拥有成本(TCO)方面尤为突出。另外 值得注意的是ROCm已获得PyTorch、DeepSpeed等主流AI框架的原生支持。
在高速互联网络层面,AMD采取了在 Scale-up和Scale-out层面两种不同的应对策略, 具体实现如下:
●Scale-up层面: 采用专有的第三代Infinity Fabric技术(直接对标NVIDIA NVLink)构建全互联环形拓扑,以高达896 GB/s的聚合带宽将节点内GPU紧密耦合为统一计算单元 。
●Scale-out层面: 通过标准PCIe Gen 5进行基础连接,并联合行业力量主导UALink开放标准以构建开放生态。
在AI数据中心中如何在拥抱开放、标准化的以太网生态的同时获得媲美IB专有方案的高性能互联网络,或许Intel Gaudi 3的设计理念能给您提供一些参考答案。
英特尔专注于在主流推理工作负载上为客户提供卓越性能且高性价比的产品如Gaudi 3—— 采用TSMC 5nm芯粒设计、 由64个张量处理器核心(TPC)与8个矩阵数学引擎(MME)构成 ,可提供高达1835 TFLOPS的FP8/BF16计算性能还配备了128GB HBM2e内存(带宽3.7TB/s)。
实现上述核心亮点的源于革命性的“片上网络(Network-on-Chip)”架构设计:每个Gaudi 3芯片原生集成了24个200Gbps的以太网端口(全面支持RoCEv2(RDMA over Converged Ethernet v2)),无需额外配置独立的网卡(NIC)或DPU,单芯片即可提供高达4.8Tb/s的网络吞吐。这一设计带来了极高的灵活性:在标准的8-ASIC服务器中,21个端口可用于节点内全互联(Scale-up),剩余3个端口则直连机架顶部的标准以太网交换机,实现Scale-out扩展。
英特尔以生态系统的开放性 (全以太网)、架构的灵活性 (可基于标准设备任意规模扩展)与更低的物料清单(BOM)成本 ,让客户可以完全基于行业标准的以太网交换机来构建任意规模的AI集群, 彻底摆脱了对专有网络(如InfiniBand)的依赖 ,与英伟达从芯片到网络的全栈锁定策略形成了极为鲜明的对比。
2025年9月18日一项50亿美元的战略入股让人有点让人摸不清头脑到底谁才是敌人说是朋友——英伟达将斥资50亿美元入股昔日的宿敌英特尔,一举成为大股东!根据协议,英特尔将利用其先进的制造与封装能力为英伟达执行两大核心任务:
1.为英伟达定制数据中心所需的x86 CPU;
2.在未来的PC芯片中,集成英伟达的RTX GPU chiplets(小芯片);
“一石二鳥”:既通过Intel获得一个可靠的AI工厂来实现供应链多元化,又联合英特尔进一步孤立了共同的竞争对手AMD。
另外,50亿美元的战略入股不仅是Intel和英伟达两大巨头的珠帘合璧,更是在资本市场的一次完美合龙,未来“双航母战斗群”在计算帝国又可以在比较长时间所向披靡,或许未来我们可以用上英伟达集成显卡、超融合CGPU卡(CPU和GPU) 等全新产品形态,进一步巩固AI领域英伟达“一超多强”的行业格局。
个人理解google的TPU自研芯片的首要目标是为了自身全球服务构建最优化的基础设施,而非直接与英伟达在通用市场竞争。
作为google推出的 首款专为大规模推理与旗舰AI模型(如Gemini)多芯粒芯片——第七代Tensor Processing Unit(TPU),代号“Ironwood”:每颗芯片配备192GBHBM3e内存 ,带宽高达7.37 TB/s(为上一代Trillium的4.5倍),通过 1.2TB/s的专有ICI3D环面互联网络 可将多达9,216颗 芯片构建为拥有1.77PB共享HBM内存的单一巨型计算Pod;
更关键的是创新性地引入光路交换(OCS)技术 进一步强化和实现动态故障恢复与灵活资源调度。此外,Ironwood还集成了增强版的 SparseCore—— 一种专门用于处理谷歌核心的 搜索、推荐与广告 等业务中大规模稀疏嵌入(embeddings)的硬件加速器。
AWS通过自研自产自用的高性价比云选项将AI工作负载全流程的价值更多地闭环于AWS生态系统内部,而实现这一目标的来源主要依赖于两款分别优化的芯片(以Trainium2芯片主攻模型训练,Inferentia芯片主攻推理),还能够从Scale-up和Scale-out层面实现系统级扩展:
●Scale-up层面: 通过专有NeuronLink互联,不僅能在实例内连接16颗芯片(单实例可提供20.8PFLOPS的FP8算力),更能将4个实例耦合为64芯“UltraServer”以支持大模型训练;
●Scale-out层面: 通过高达3.2Tbps的自研Elastic Fabric Adapter(EFA)(支持RDMA)高性能网络,进一步实现了在EC2 UltraClusters中连接数万个Trainium芯片。
为了能够更好的支撑OpenAI模型(如GPT系列)在Azure上的海量推理需求和提供深度优化的解决方案打造自己的差异化优势,微软以 Maia100为核心打造了从芯片到数据中心的垂直整合解决方案。
具体实现上第一代Maia100加速器基于 TSMC 5nm工艺与 多瓦片(tile-based)架构 ,微软不仅围绕着Maia100单独设计了专用的服务器主板、机架、配电系统,还做了一个被称为进一步“Sidekick”的定制化液冷散热系统。在网络层面,每个Maia 100芯片原生集成了4.8 Tbps的、基于定制的“RoCE-like”协议,可通过12个400GbE端口与后端网络实现进一步的Scale-out互连。
与此同时微软作为UEC的核心推动者也在积极推动行业向开放标准演进。
表1:主流AI加速器关键技术参数对标
特性 (Feature) | 英伟达 B200 | AMD MI350X | 英特尔 Gaudi 3 | 谷歌 Ironwood (TPUv7) | 亚马逊 Trainium2 (单芯片) | 微软 Maia 100 |
|---|---|---|---|---|---|---|
AI性能 (FP8/FP4) | 20 PFLOPS (FP8) / 40 PFLOPS (FP4) | N/A / ~2.3 PFLOPS (FP4) | 1.8 PFLOPS (FP8) | 4.6 PFLOPS (FP8) | ~1.3 PFLOPS (FP8) | 1.6 POPS (INT8) / 3.2 POPS (FP4) |
内存类型 | HBM3e | HBM3E | HBM2e | HBM3e | HBM3 | HBM2E |
最大内存容量 | 192 GB | 288 GB | 128 GB | 192 GB | 96 GB | 64 GB |
内存带宽 | 8 TB/s | 8 TB/s | 3.7 TB/s | 7.37 TB/s | 2.3 TB/s | 1.8 TB/s |
Scale-up互联 | 第五代 NVLink | 第四代 Infinity Fabric | 集成以太网 (RoCEv2) | ICI | NeuronLink | 定制以太网 (RoCE-like) |
Scale-up带宽 | 1.8 TB/s | ~900 GB/s (8-GPU) | 4.8 Tb/s (片上) | 1.2 TB/s | N/A | 4.8 Tb/s (片上) |
Scale-out互联 | InfiniBand / Spectrum-X | 标准以太网 (PCIe) | 集成以太网 (RoCEv2) | DCN | EFA | 定制以太网 (RoCE-like) |
Scale-out带宽 | 800 Gb/s+ | 取决于NIC | 600 Gb/s (片上) | N/A | 3.2 Tb/s (16-GPU) | 4.8 Tb/s (片上) |
更重要的是作为最大客户(谷歌(TPU)、亚马逊(Trainium/Inferentia)、微软(Maia)等)除了加速自研AI芯片进程外,他们也是“产业联盟模式”的核心推动者:他们联合了几乎所有英伟达的主要竞争对手和最大的客户共同发起了 Ultra Accelerator Link(UALink)和Ultra Ethernet Consortium(UEC) 。

图7: AI数据中心内Scale-up与Scale-out的组网架构示例
UALink 是由AMD、英特尔、谷歌、微软、Meta、HPE、思科和博通等行业巨头联合推动的开放行业标准,其核心目标是通过标准化和商品化AI服务器中最关键、利润最高的组件——Scale-up互联组件,打破NVIDIA NVLink的生态锁定。
在ODCC2025等行业峰会上,联盟积极展示其最新进展: UALink1.0、UALink1.1版本 进一步加速一个开放、多厂商互联生态的成熟,最终让客户能混合搭配不同供应商的UALink兼容产品,进一步引入竞争、降低成本。
●UALink1.0规范核心技术特性: 类似于CPU访问内存一种比传统网络消息传递更高效、延迟更低的新的通信方式:通过支持内存语义(Load/Store/Atomic)的轻量化协议栈,构建一个可连接多达1024个加速器的统一内存AIPod。其利用与以太网相同标准的200G/laneSerDes物理层,实现了100-150纳秒(与PCIe交换相当,远低于微秒(µs)级别的以太网延迟)的极低延迟与800Gb/s的端口带宽。
●UALink1.1规范核心技术特性: 核心更新在于将Scale-up互联带宽在UALink1.0基础上翻倍即变成1.6T的端口带宽,在维持1024加速器连接规模的同时,进一步优化了高带宽下的连接效率与多厂商硬件兼容性,旨在加速开放生态的部署。
UEC(Ultra Ethernet Consortium) 是由AMD、英特尔、微软、Meta等除英伟达之外的几乎所有网络和计算行业巨头联合成立的开放行业联盟,其核心目标是构建一个基于以太网、专为AI与HPC优化的高性能通信协议栈,旨在为市场提供一个可替代NVIDIA专有InfiniBand网络的开放、标准化解决方案。
UEC的核心创新在于其全新的 Ultra Ethernet Transport(UET)协议 :在保留以太网兼容性的基础上,通过多路径与逐包负载(非原来的基于五元组的逐流HASH)技术根除ECMP哈希不均引起的热点问题,以灵活交付顺序硬件卸载乱序处理来降低延迟,并引入专为AI优化的拥塞控制算法(以实现快速的线速收敛、对“Incast”场景的智能处理),进一步系统性地降低尾延迟(taillatency)。
根据UEC联盟发布的1.0版规范,其核心技术特性包括:
1.传输层 (Transport Layer): 正式定义了全新的UET(Ultra Ethernet Transport)协议,标准化多路径逐包负载均衡、灵活交付顺序和为AI优化的拥塞控制机制等革命性功能。
2.物理层(Physical Layer): 规范了基于800GbE和1.6TbE的接口标准,与此同时定义了新的信令与前向纠错(FEC)机制,以满足不同规模AI集群的带宽与可靠性需求。
3.软件层(Software Layer): 提供了标准化的API和数据结构,进一步简化与PyTorch、TensorFlow等上层AI框架的集成,以及确保来自不同供应商的硬件(如网卡、交换机、DPU)之间的无缝连接和互操作性。
2025年9月23日——英伟达与OpenAI宣布达成1000亿美元的战略合作,OpenAI将部署至少10GW的算力,包含400万至500万块GPU。黄仁勋将此合作称为“史上最大AI基础设施项目”,标志着“AI工业革命的到来”。

图8: 黄仁勋(中)与OpenAI的GregBrockman(左二)和SamAltman(左一)
“星际之门”是OpenAI及其盟友为实现通用人工智能(AGI)而发起的一场史无前例的基础设施豪赌。该项目旨在通过一个由OpenAI(负责运营)和软银(负责财务)主导的多方合资企业,在未来四年内投资高达5000亿美元,建设一个由20个AI数据中心组成的庞大网络,确保在通往超级智能的道路上拥有绝对领先的算力。
根据媒体披露,项目初期资金由四大股权方联合提供,总额达520亿美元:软银和OpenAI各承诺投入190亿美元,基础设施与云合作伙伴甲骨文,以及阿联酋的AI投资基金MGX则各投入70亿美元。接下来带您一起研究“星际之门”(Project Stargate)计划的背后藏着的“期权拼图”:
●合约内容: 与英伟达签署了一份≥10GW算力的意向书(LOI),计划 首期1 GW于2026年下半年上线下一代 Vera Rubin平台 ,与此同时英伟达按每个GW的落地进度分期向OpenAI投资最高1000亿美元(对应约400万至500万颗GPU)。
●战略意图: 在后摩尔定律时代,HBM和先进封装的供给能力已成为核心瓶颈,而下一代Vera Rubin平台又高度依赖于 HBM和先进封装,合约的签订不仅提前锁定英伟达的GPU产能和供给优先级,还确保OPENAI模型算法的跃迁与英伟达的GPU硬件演进形成精准有效的“共振效应”,即英伟达的下一代GPU硬件迭代更新OPENAI总能够捷足先登、精确卡位。更为重要的是本次创新性的资本支出方式(看起来有点类似云租赁模式):英伟达的一次性 大额资本支出(CAPEX)转变为一个里程碑式的资金闭环,与Oracle的云服务进一步运营支出(OPEX)进一步合同形成完美互补。
●合约内容: 与甲骨文(Oracle)签署了一项为期五年、价值高达3000亿美元的云算力协议,将由甲骨文为OpenAI新增4.5 GW的数据中心。
●战略意图: 提前锁定4.5 GW的数据中心 规避出现“巧妇难为无米之炊”的尴尬,同时通过“云服务”的方式进一步减低运营成本。
●合约内容: 与博通(Broadcom)签署了一项价值100亿美元的合作协议,用于支付计划于2026年交付的专门为OpenAI定制开发AI芯片(ASIC)。
●战略意图: 合约的签订不仅提前锁定博通的网络、SerDes和先进封装(如3.5D XDSiP)技术,还大幅减低OPENAI总体拥有成本(TCO)和 补齐GPU高性能算力的多元化的短板 。
如何理解通过期权一加深与英伟达的绑定,又通过期权三与Broadcom合作摆脱英伟达的依赖?我们一起从时间维度和工作负载两个方面来理解这一对矛盾综合体:
●近期确定性 vs 远期经济性: 从时间维度上看两者分别解决了不同阶段的核心算力需求问题。NVIDIA Rubin平台是具备明确交付时间表(2026 H2)、完整技术栈与大规模可部署性,能够满足短期内迫在眉睫的算力需求。而与Broadcom合作的自研ASIC仍需要经历流片、验证、产能爬坡等漫长周期还存在一定程度的不确定性,但可以作为推理成本曲线的中长期优化的选项之一。
●复杂任务 vs 规模化任务: 从工作负载上看两者针对的是不同类型的计算任务。因为前沿训练、多模态及长上下文推理等复杂任务与英伟达的NVLink、高带宽内存和CUDA软件生态的深度耦合,短期难有可替代性的划时代产品与之相匹敌。而大规模、特定形态的推理任务可以通过牺牲一定通用性的定制化ASIC来实现,从而大幅拉低总体拥有成本(TCO)。正因如此,NVIDIA的Rubin-CPX芯片便是将这种“解耦推理”(即将计算密集的Prefill与内存密集的Decode分摊)的理念产品化,能够在生态内部提前为客户提供ASIC级别的能效与成本优势。
OpenAI的策略并非在“摆脱NVIDIA依赖”和“加深绑定”之间摇摆,而是在不同时间维度和不同工作负载上进行了精密的风险对冲。这看似“一鱼多吃”的布局细究其本质是通过叠加多环节的期权来消除未来超大规模投入的巨大不确定性,这么来看的话奥特曼也是一名超级无敌的供应链风险管控专家:三份合约同时锁住三大核心成本约束:硅/封装/HBM(NVIDIA 路线图与上游配给)、电力/场地(Oracle及PPA)、成本/二源化(Broadcom/TSMC)。换句话说英伟达负责解决“性能与供给优先级”,甲骨文负责解决“电力与机房”,博通则负责解决“长期成本与多元化供应”,三者互为补充共同构成了OpenAI通往AGI之路的“上下游双保险”。
另外,AMD和Oracle的合作已初具规模例如Oracle 宣布在其云平台(OCI)上部署一个包含超过16,000颗MI300XGPU的超大型AI集群 虽然AMD没有在“星际之门”的初始技术合作伙伴行列中,但通过与联盟核心成员甲骨文(Oracle)的深度合作曲线拓展,进一步在“星际之门”生态中占据了有利的战略位置。 对于OPENAI来说,AMD的加入随即补齐了GPU高性能算力的多元化的短板,又让OPENAI签订三方期权以外又多加了一层关键安全保险。
作为对“星际之门”计划的直接回应,亚马逊AWS也采取了行动,它通过其“雷尼尔计划”为AI伙伴Anthropic构建一个同样规模宏大的专属计算集群。该项目是亚马逊对Anthropic高达80亿美元总投资的核心部分,旨在部署超过10万颗自研Trainium2芯片,并计划于2026年底前全面投入运营。这完全基于亚马逊自研的 双芯战略 :以Trainium2芯片主攻AI训练 ,Inferentia芯片主攻推理 。其系统级扩展独具特色:在Scale-up互联技术层面通过专有NeuronLink互联,不仅能在实例内连接16颗芯片,更能将4个实例耦合为64芯“UltraServer”;在Scale-out互联技术层面则通过3.2Tbps的自研Elastic Fabric Adapter(EFA)(支持RDMA)高性能网络,用于在EC2 UltraClusters中连接数万个Trainium芯片。
1000亿美元资本闭环的“哥德巴赫猜想”或许尚无定论,AI王权新时代的巨头之战,谁主沉浮也未见分晓。
在下一篇分享中,我们将为您深度揭晓在AI算力新战国下东方群豪门如何百花齐放、百家争鸣,以及谁又能“封狼居胥”呢?