首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >字节Ethlink vs UALink vs SUE(ESUN + SUE-T):网工视角谁更胜一筹?

字节Ethlink vs UALink vs SUE(ESUN + SUE-T):网工视角谁更胜一筹?

作者头像
AGI小咖
发布2025-12-22 11:40:20
发布2025-12-22 11:40:20
5390
举报

1

当前Scale-up网络割裂生态

随着AI“军备竞赛”步入万亿参数与数万GPU集群的“深水区”,机柜内部的互联网络(Scale-Up Fabric)已成为制约性能的首要瓶颈,行业普遍认识到,依赖单一供应商专有技术(如NVIDIA NVLink)所带来的高昂成本和“苹果式”的封闭生态——高昂的“NVIDIA税”、深度的厂商锁定、有限的供应选择以及缓慢的开放步伐 ,已成为AI基础设施发展的沉重负担。在此背景下OCP 2025峰会成为了一个关键的历史拐点,标志着行业正式步入“后NVLink”时代,以太网阵营力量的全面崛起。

今年的OCP 2025年在网络层面两大核心变化是:一个是在OCP峰会上正式集结的、由几乎所有行业巨头共同支持的“以太网统一战线”——ESUN(Ethernet for Scale-Up Networking)工作组;一个是网络芯片巨头博通(Broadcom)毅然退出其曾作为创始成员的UALink联盟董事会,转而与昔日的竞争对手NVIDIA、AMD、Meta、微软等共同发起ESUN工作组。

图1:ESUN工作组(有NVIDIA,又有Broadcom

前期我们分享过三篇文章——字节EthLink的“单点破局”、UALink联盟的“合纵连横”与博通SUE的“统一阳谋”,接下来我们从AI网络视角试图针对Scale-up三大主流技术流派(字节Ethlink、UALink、SUE)来一场竞品分析与趋势展望。

2

Ethlink vs UALink vs SUE三大方案对比

面对同样的挑战(打破NVLink垄断,拥抱开放生态),三大主流方案却给出了截然不同的答卷。我们将从AI网络工程师的核心关切出发逐一解剖。

2.1 定制优化 vs. 开放标准 vs. 统一网络

对比维度

字节 Ethlink

UALink联盟

ESUN + SUE-T 框架

战略定位

单点破局,深度定制

合纵联盟,开放标准

统一以太网江湖

主要目标

解决自身万卡集群痛点

打破NVLink锁定

统一Scale-up/out网络

主要推动者

字节+北大

汇集了NVIDIA的主要竞争对手和客户(AMD、谷歌、英特尔、微软、Meta等);OCP 2025更新: 博通已退出董事会。

包括了几乎所有关键参与者:AMD、Arista、ARM、博通、思科、HPE、Marvell、Meta、微软、NVIDIA、OpenAI和Oracle 。

架构哲学

外科手术式优化: 对以太网协议栈进行深入、有针对性的修改,以解决特定痛点,而非完全重写

基于标准PHY的全新协议: 在标准的以太网物理层之上,设计一个全新的、为特定目的构建的协议栈(DL/TL)

模块化与标准化分工: ESUN(网络交换结构)和SUE-T(端点传输协议)双线并战

OCP 2025关键举措

/

/

ESUN工作组正式成立

2.2 “单点破局” vs “另起炉灶” vs “借壳上市”

对比维度

字节 Ethlink

UALink联盟

ESUN + SUE-T 框架

物理层 (L1)

标准PHY,低延迟优化: 采用标准以太网PHY,但通过低延迟FEC(如RS-272)进行优化,牺牲部分纠错换取速度

标准PHY,低延迟选项: 采用标准以太网PHY,但提供减少FEC交织的选项,以延迟换可靠性

拥抱标准PHY生态: 完全复用标准以太网PHY,最大化利用现有光模块、铜缆和工具生态

数据链路层 (L2)

自定义的链路层:极致精简的优化EthLink转发头(OEFH)

自定义Flit聚合链路层: 核心是将10个64B的TL Flit聚合成一个640B的DL Flit,实现极致链路利用率

标准MAC+增强报文头: 保留标准以太网MAC以确保兼容,通过UEC定义的AI Fabric Header提升效率

网络层 (L3)

完全绕过L3: 6字节的OEFH包含全部路由信息,彻底消除IP开销

绕过L3,扁平化L2域: 通过10位加速器ID在自定义协议内路由,构建1024节点的扁平交换域

灵活支持L2/L3: 可选标准IP/UDP实现兼容,或优化L2转发提升性能,提供兼容与速度的权衡

传输/事务层

自定义事务层: 将上层GPU操作(Load/Store, RDMA)直接映射到网络原语

Flit打包/解包事务层: 负责将UPLI消息与64字节的TL Flit相互转换

双模式传输层(SUE-T): 提供完整版(端到端可靠)和精简版(依赖链路层可靠)两种模式

通信语义

原生双语义硬件支持: 直接映射GPU硬件,唯一原生支持LSU (Load/Store) 和TMA (RDMA) 两种语义

内存语义纯粹主义者: 通过UPLI接口,将Load/Store和原子操作等内存语义作为核心抽象进行标准化

语义无关的通用传输:透明传输各XPU厂商自定义的内存语义

2.3 效率、可靠性与性能

对比维度

字节Ethlink

UALink联盟

ESUN+SUE-T框架

报文头设计

6字节OEFH取代ETH+IP+UDP

打包聚合与地址压缩: 通过Flit打包与TL层地址缓存技术实现双重效率压缩

标准化压缩报文头: 采用UEC/ESUN定义的AI Fabric Header (AFH) 减少开销和兼容以太网

可靠性机制

硬件级“双重保险”:LLR + CBFC

协议内建硬件可靠性: 将LLR与CBFC作为自定义DL/TL层的原生组成部分

标准化的双模可靠性: LLR/CBFC成为UEC/ESUN标配;SUE-T提供纯硬件或“硬件+端到端”两种模式

拥塞控制

链路层主动预防: 完全依赖CBFC在硬件层预防拥塞

链路层信用流控: 完全依赖CBFC构建硬件级无损网络,无需上层干预

链路层基础+传输层增强: 以CBFC为基础,完整版SUE-T增加端到端拥塞控制机制

可扩展性

为字节的“MegaScale”集群(数万GPU)设计,白皮书明确单个域支持1024 GPU

UALink 1.0规范明确定义单个Pod支持1024个加速器

设计支持至少1024 XPU,且通过Meta的DSF架构验证了可扩展至18,432 XPU

2.4 三大核心亮点对比

对比维度

字节 Ethlink

UALink联盟

ESUN + SUE-T 框架

硬件依赖

全栈专有硬件: 需要定制的NIC和交换机

全新的硬件品类: 需要符合UALink标准的XPU/NIC和专用的UALink交换机(ULS)

标准硬件+增强NIC: 可在标准以太网交换机上运行,但需具备SUE-T逻辑的NIC/XPU则需要更高级交换机License授权

亮点一:核心创新

双语义硬件卸载: 原生支持低延迟控制(LSU)和高带宽数据(TMA)路径

开放内存网络:主要贡献是在多厂商加速器生态系统中标准化直接内存访问(Load/Store)

统一网络愿景:统一数据中心Scale-Up和Scale-Out网络

亮点二:生态系统

封闭但高效: 极致的软硬件协同设计,但生态系统局限于单一公司内部,无法外延

专注但狭窄: 一个由强大竞争对手组成的联盟,目标明确,但博通的退出使其在网络侧面临更大的生态构建挑战

开放且全面: 几乎所有行业领导者参与,通过模块化分工(ESUN/SUE-T)降低了参与门槛和寄生于开放以太网生态

亮点三:可靠性

硬件原生可靠性: 通过强制LLR+CBFC将可靠性完全卸载到链路层,简化上层软件

协议集成可靠性: 将可靠性与流控内建于自定义协议层

标准化的双模式可靠性: LLR/CBFC成为UEC/ESUN标准,SUE-T提供最低延迟(纯硬件)

3

开放以太网大势所趋

当前Scale-up的割裂态势本质上是性能、开放性、成本与生态四大要素之间的复杂权衡,其中:

字节EthLink代表了单一巨头基于自身需求的极致定制优化,性能潜力巨大,但生态封闭。

UALink代表了行业联盟对性能与开放性的折衷,试图通过标准化打破垄断,但面临生态成熟速度和内部协调的挑战。

SUE则代表了网络巨头试图用“统一标准”降维打击一切“专用方案”的野心,其最大王牌是庞大的以太网生态和成本优势,但“通用”能否真正战胜“专用”仍是未知数。

目前来看没有任何一种方案能够完全“秒杀”其他对手。NVLink凭借其先发优势和与CUDA生态的深度绑定,短期内仍将在追求极致性能的场景中占据主导。进入AIGC时代,尽管短期内全球及国内市场仍将维持“一极主导、多极追赶”的竞争格局,但开放网络的趋势不会发生根本性转变。

或许未来在不同的细分应用场景多种方案独放异彩、呈现百家争鸣的局面:

① NVIDIA NVLink/InfiniBand:尽管面临开放标准的巨大压力,但凭借其性能领先优势和软硬件高度整合的交钥匙解决方案(如GB300 NVL72)——短期内仍是性能标杆(通过保持性能代差和提供极致便利性来维持其市场地位)。

② ESUN/UEC/SUE-T:站在开放以太网的巨人之上,试图用无处不在的以太网试图融合统一Scale-up与Scale-out这两个壁垒分明的世界。或许未来Scale-up的割裂生态不复存在,取而代之的是“如何”规模化部署一个由UEC(超以太网联盟)、ESUN和SUE-T(Scale-Up Ethernet Transport)共同定义的、增强版的开放以太网生态系统。

图2:ESUN+SUE-T组成新的Scale-up协议

③ UALink:专注为低延迟内存语义设计的全新协议,试图吸引那些既要超越NVLink性能又追求开放生态系统的高端用户。

对咯,面对字节Ethlink的“独狼式突围”、UALink的“合纵连横”、ESUN/UEC/SUE-T的“统一以太网江湖”与英伟达NVLink的“黄金后花园”,您更看好哪条路能最终主导AI算力互联的未来?欢迎在评论区留下您的判断!

·往期推荐·

字节跳动MegaScale万卡集群复盘与推演

万卡算力网络破题之道——腾讯星脉网络篇

媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AGI小咖 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档