前期我们分享了百度百舸、阿里HPN智算网络的组网架构,本期从腾讯星脉网络的视角谈谈其如何利用“多轨道”、“TCCL+GOR”端网融合协同设计来破解万卡集群网络面临的哈希极化、拓扑盲点和拥塞抖动等核心难题的 二:星脉网络AI infra基础设施核心组件 为应对上述挑战,腾讯星脉网络(Astral Network)提出多轨道和端网协同优化方案,具体如下: 2.1 多轨道(Multi-Rail)网络架构 星脉网络为超大规模 GPU集群构建了高带宽、多轨道的物理网络基础设施,其核心特征是多轨道(Multi-rail): 图1:星脉网络多轨道集群设计 服务器接入层面:每个服务器均配有 8 个端口速率为 400 Gbit/s 且支持基于融合以太网远端内存直接访问技术 2.2 TCCL和GOR端网协同 星脉网络端网协同两大核心组件:运行在 GPU 服务器上的拓扑感知集合通信库 (TCCL)和管理 RoCE 网络中流量路由的全局优化路由器 (GOR)。 图2:星脉网络TCCL和GOR的端网协同 TCCL:部署于GPU服务器端,实时感知LLM训练的并行策略与网络的物理拓扑,在通信发生前,进行精细化的静态路径规划即路径预规划。
本文将通过腾讯星脉网络运营体系中的两个系统来介绍腾讯在GPU网络领域的运营实践:a. 3.3.最佳实践:端网监控联合实现故障定位 星脉网络监控系统为高性能计算集群运行增添重要保障,却仅仅是整个运营体系中的一小部分。 而在腾讯的GPU网络中,我们也有控制和调度流量,避免流量冲突的“领航员”,这就全局优化路由(Global Optimized Routing,GOR),它会对星脉网络中的流量进行指引以避免发生拥塞。 这说明传统的监控手段很难准确定位GPU网络中的拥塞,我们需要更准确的手段,而星脉网络监控系统可以满足这一需求。 得益于星脉网络监控系统提供的高频精确网络指标,我们可以精准地获取到网络中有哪些链路发生了拥塞,以及拥塞链路上的流信息。
对此,追求极致高性能与高可用的星脉超算网络面世了。 而在金榜题名的背后,星脉超算网络为腾讯万亿大模型构筑了高性能网络底座。 星脉网络基于1.6Tbps ETH RDMA网络定制,从网络性能、建设成本、设备供应、网络可靠性等多方面综合考虑,大量部署了2*100Gbps的单网卡硬件。 在星脉网络之前,据统计90%的高性能网络故障case均是配置错误导致的问题。出现这一问题的主要原因就是网卡配置套餐多,取决于架构版本,业务类型和网卡类型。 星脉超算网络作为腾讯大规模训练集群的重要基石,会持续在超带宽、异构网络通信、通信库定制加速、智能监控等技术上不断创新,为AI大模型训练构筑可靠的高性能网络底座。
阿里灵骏智算产品有磐久可预期网络(参考:阿里整网络顶呱呱,整图苦哈哈!),腾讯也没闲着,星脉高性能计算网络为AI大模型构筑网络底座。 而在金榜题名的背后,星脉超算网络为腾讯万亿大模型构筑了高性能网络底座。 多轨道流量聚合架构 除了超带宽计算节点,星脉网络对通信流量做了基于多轨道的流量亲和性规划,使得集群通信效率达80%以上。 星脉网络基于1.6Tbps ETH RDMA网络定制,从网络性能、建设成本、设备供应、网络可靠性等多方面综合考虑,大量部署了2*100Gbps的单网卡硬件。 星脉超算网络作为腾讯大规模训练集群的重要基石,会持续在超带宽、异构网络通信、通信库定制加速、智能监控等技术上不断创新,为AI大模型训练构筑可靠的高性能网络底座。
刚刚,腾讯自研星脉高性能计算网络全面升级,相比上一代:支持单集群10万卡组网,规模翻倍网络通信效率提升60%让大模型训练效率提升20%故障定位从天级降低至分钟级比如同样一个大模型训练集群,某个计算结果同步时间从原来的 基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。//“治堵”更“高效”,训练效率提升10%要想保证路网畅通,除了道路更可靠,也要会高效“治堵”。 即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。高效治堵,将星脉网络的通信效率提升30%,让大模型的训练效率提升10%。 此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。做道简单的算术题:TiTa与TCCL升级带来的效果叠加,让星脉网络的通信效率共提升60%,大模型训练效率共提升20%! 星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。
在这个背景下,传统的以CPU为核心的DCN正在向全新的以GPU为核心的星脉AI高性能网络演进升级。 腾讯星脉AI高性能网络专为AI大模型而设计,提供大带宽、高利用率以及零丢包的高性能网络服务,以保障AI大模型的训练效率。 星脉AI高性能网络 在传统DCN中,我们已经广泛应用网络控制器来实现网络变更灰度和路由监控,以确保网络的稳定性,此时的控制器叫做DCN控制器1.0。 在AI网络中,我们也需要类似负责规划与调度的领航员,这就是星脉网络GOR控制器。 在传统DCN中,我们应用DCN控制器1.0实施网络变更灰度和路由监控来保证网络的稳定性;在星脉AI高性能网络中,DCN控制器1.0进一步演进升级到星脉GOR控制器。
和大家汇报一个好消息: 在第七届未来网络大会上,腾讯云星脉网络获得「2023中国未来网络领先创新科技成果奖」。 为什么要推出星脉网络 今年以来,以大模型为代表的AIGC技术,在全球范围内引发新一轮智能化浪潮,被视为是重塑人类未来的新技术。 AIGC的爆发除了带来算力上的挑战之外,还对网络的传输和稳定提出了新的需求,传统的网络架构已经越来越满足不了大模型训练的需求。 星脉网络正是在这样的背景下诞生的。 根据测算,和传统以太网相比,星脉网络能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。 技术上,做了哪些创新 概括来说,星脉网络分别在交换机、通信协议、通信库以及运营系统等方面,进行了软硬一体的升级和创新。
二、星脉网络AIinfra基础设施核心组件为应对上述挑战,腾讯星脉网络(AstralNetwork)提出多轨道和端网协同优化方案。 2.1多轨道(Multi-Rail)网络架构星脉网络为超大规模GPU集群构建了高带宽、多轨道的物理网络基础设施:图1:星脉网络多轨道集群设计①服务器接入层面:每个服务器均配有8个端口速率为400Gbit 2.2TCCL和GOR端网协同星脉网络端网协同两大核心组件:运行在GPU服务器上的拓扑感知集合通信库(TCCL)和管理RoCE网络中流量路由的全局优化路由器(GOR)。 图2:星脉网络TCCL和GOR的端网协同TCCL:部署于GPU服务器端,实时感知LLM训练的并行策略与网络的物理拓扑,在通信发生前,进行精细化的静态路径规划即路径预规划。 本文基于腾讯星脉网络公开技术资料,并结合作者在AI基础设施领域的持续研究撰写而成。
凭借我多年的经验,是能够帮他们解决的,但由于 CSDN 私信没法做到及时响应,他这边提问题了,我没法及时回复,也回复不过来,我回复了,他那边也不一定能及时看得到,网络延迟很高,这就导致沟通起来很费劲。 好朋友小北曾说过,我们程序员学的是计算机科学,而不是编程语言,所以我们要学习操作系统、编译原理、计算机组成原理、计算机网络、数据结构与算法。 好朋友 Guide 哥,他在 GitHub 上开源的 JavaGuide 项目就帮助了无数的初学者,他把自己的经验分享出来,然后就有了 100k+ 的星标。据他说,他是从大二开始搞的。 打通自己的任督二脉,让 5 脉神剑肆意地喷发吧! 我是二哥呀,觉得有帮助的话,点赞和星标吧!我们下期见~
▉ 腾讯云星脉网络助攻AI大模型在今年6月份,腾讯云发布的新一代 HCC 高性能计算集群,基于星脉高性能网络打造,可以实现 3.2T 超高互联带宽,算力性能较前代提升 3 倍,为 AI 大模型训练构筑可靠的高性能网络底座 为确保星脉网络的高可用,腾讯云自研端到端全栈网络运营系统。 ▉ 星脉网络的应用场景和未来发展综上可以看出,星脉网络是一种高性能、低延迟、高可靠性的计算网络,具有极高的通信效率和计算能力,适用于各种大规模数据处理和计算任务。 在人工智能领域,星脉网络的应用场景非常广泛,主要包括大型模型训练、分布式任务协作、云游戏等。对于人工智能领域的大型模型训练,星脉网络的高性能和低延迟是非常重要的。 此外,星脉网络可以支持分布式任务协作,实现计算任务的并行处理,进一步提高计算效率。对于云游戏这样的场景,星脉网络的优势也十分明显。
然而,如果没有网络支持,计算的篇章就无法开启。 7 月 1 日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉 2.0 支持超 10 万卡大规模组网。 而星脉团队将星脉的通信时长占比做到了 6%,这实际远低于 10% 的业界水平。 星脉本身有一套自研协议。通过高性能通信库 TCCL,星脉能看到网络拓扑,能知道什么路径最短。路径最短,拥塞也会变少,丢包概率也会降低。 通过自研端云协同协议 TiTa,星脉可以在网络拥塞的时候,将流量做调度,不会产生丢包,也能让网络负载跑得更均匀。 4 从星脉 1.0 到星脉 2.0 的进阶:在工程上支持 10 万卡 腾讯最早于 2022 年就开始做星脉研发,当时主要是用于广告大模型训练。
█ 星脉网络,鹅厂的算力集群杀手锏 对于AI大模型这场热潮,腾讯当然不会缺席。他们推出了业界领先的高性能计算网络架构——星脉。 在网络技术的理解和驾驭能力上,也是世界领先水平。而星脉,则是他们多年技术研究的精髓,是真正的杀手锏。 根据实测,星脉实现了AI大模型通信性能的10倍提升、GPU利用率提升40%、通信时延降低40%。 基于全自研的网络硬件平台,星脉可以实现网络建设成本降低30%,模型训练成本节省30%~60%。 星脉网络的算力效率,远高于业界主流值 接下来,我们不妨深入解读一下,星脉到底采用了哪些黑科技。 网络规模 在组网架构上,星脉网络采用无阻塞胖树(Fat-Tree)拓扑,分为Block-Pod-Cluster三级。 星脉网络的架构 Block是最小单元,包括256个GPU。 星脉网络将机间、机内两种网络同时利用起来,实现了异构网络之间的联合通信优化。 例如,在All-to-All通信模式时,每个GPU都会和其它服务器的不同GPU通信。
鹅厂死磕网络技术多年,研发了高性能计算网络“星脉”: //网络带宽、拓扑架构 “带宽”相当于路的宽度,“拓扑”则是节点设备间的连接方式。 前者决定了能同时传输多少数据,后者决定了组网规模有多大。 3.2Tbps带宽、支持10万卡集群组网 ——这两项硬指标,星脉都做到了业界最强。 //升级网络协议 网络协议,就像网络世界里的“交通规则”。 这项优化,让星脉的时延降到10us ~ 40us、丢包率降到0。 //计算网络联合优化 对分布式架构而言,想要把资源用足,需要实现“负载均衡”: 把任务更均匀地分到每台服务器、每条路径上。 它支持全局网络路由、拓扑感知亲和性调度。 就像智能导航,预先规划行驶路线、并根据路况动态调整。 通过这些技术创新,星脉让大模型通信性能提升了10倍。 搭载星脉的新一代HCC高性能计算集群, 万亿参数大模型训练时间已经加速至4天。 传输距离会带来通信损耗,是客观的物理定律。 但通过一点一滴的网络技术突破,我们尽力让集群算力输出更加接近线性。
02 如何创造AI训练集群下的极致性能网络 面向AI大模型训练需求,腾讯推出了业界领先的高性能计算网络架构——星脉。 星脉高性能计算网络 面对千亿、万亿参数规模的大模型训练,仅仅是单次计算迭代内梯度同步需要的通信量就达到了百 GB 量级。 2.2 多轨道流量聚合架构 除了超带宽计算节点,星脉网络对通信流量做了基于多轨道的流量亲和性规划,使得集群通信效率达80%以上。 星脉网络基于 1.6Tbps ETH RDMA 网络定制,从网络性能、建设成本、设备供应、网络可靠性等多方面综合考虑,大量部署了 2*100Gbps 的单网卡硬件。 在星脉网络之前,据统计90%的高性能网络故障 case 均是配置错误导致的问题。出现这一问题的主要原因就是网卡配置套餐多,取决于架构版本,业务类型和网卡类型。
而在金榜题名的背后,星脉高性能计算网络为腾讯万亿大模型构筑了高性能网络底座。 图 2. 多轨道流量聚合架构 除了超带宽计算节点,星脉网络对通信流量做了基于多轨道的流量亲和性规划,使得集群通信效率达 80% 以上。 星脉网络基于 1.6Tbps ETH RDMA 网络定制,从网络性能、建设成本、设备供应、网络可靠性等多方面综合考虑,大量部署了 2*100Gbps 的单网卡硬件。 在星脉网络之前,据统计 90% 的高性能网络故障 case 均是配置错误导致的问题。出现这一问题的主要原因就是网卡配置套餐多,取决于架构版本,业务类型和网卡类型。 星脉高性能计算网络作为腾讯大规模训练集群的重要基石,会持续在超带宽、异构网络通信、通信库定制加速、智能监控等技术上不断创新,为 AI 大模型训练构筑可靠的高性能网络底座。
下面一起来看企业安全管理的“六脉神剑”——六个最佳实践: 实践一:防止权力的滥用行政权力 安全的两个安全原则将帮助你避免权力得滥用:限制权力及职责的分离。 这种分割的例子是网络基础设施、存储、服务器、台式机和笔记本电脑。 另一种分配权力的方式是在服务管理和数据管理之间。服务管理是控制网络的逻辑基础设施,如域控制器和其他中央管理服务器。 监控系统和网络活动 除了记录数据,系统和网络活动可以提醒有见识的管理员潜在的问题。系统和网络应进行监测,不仅在修复关键系统和性能瓶颈的调查和解决时,也在你知道一切都好,或者攻击正在进行中。 为什么今天会从一个忙碌的网络出现突然激增的数据包? 有些SIEM工具还寻求提供网络活动的图片,以及系统活动的许多管理工具的报告。此外,IDS系统、协议分析者可以提供访问网络上流量的内容。 安全操作必须持续监控和事件响应优先来满足在当今复杂的、网络化的、全球经济所带来的挑战。阻止网络罪犯的能力取决于该组织的检测和响应的承诺。 作者:羽扇纶巾 摘自:TechTarget中国
最近,腾讯云推出专有云智算套件,集合了腾讯云高性能网络IHN(星脉网络)、高并发文件存储系统TurboFS、算力加速框架Taco-LLM等核心能力。 存储、网络、计算,共同形成了集群的“木桶短板效应”。 //看网络(IHN星脉网络):网络通信效率提升60%简单来说,GPU在大模型训练中只干两件事:埋头工作(计算)、等待拉通(计算结果同步)。在执行一次计算任务时,集群通信时间最高占比可达50%。 网络不给力,高价买来的GPU只能“干等着”。等待,就意味着浪费。不久前,腾讯自研星脉高性能计算网络全面升级,相比上一代:网络通信效率提升60%,让大模型训练效率提升20%。大模型训练再提速20%! 腾讯星脉网络2.0来了//看计算(TACO-LLM):模型推理速度提升2倍训练框架就像一张“蓝图”,可以指导GPU更高效完成任务。
2.2 网络:自研星脉高性能计算网络,将集群算力再提升20% 我们知道,模型参数量越大,对带宽的需求就越高。 腾讯自研的星脉高性能计算网络,就是这条专业赛道。这条赛道对GPU集群网络做了深度定制。增加了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅降低了通信耗时的占比。 星脉高性能计算网络将两种网络同时利用起来,将小流聚合为大流,通过减少流量的数目,从而提升整网的传输性能。 实测显示,在大规模All-to-All场景下,星脉高性能计算网络能帮助通信的传输性提升30%。 腾讯自研高性能集合通信库TCCL,基于星脉网络硬件平台深度优化,在全局路径规划、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。
网络的发展好像在各方面都是滞后于计算和存储,时延方面也不例外,网络传输时延高,逐渐成为了数据中心高性能的瓶颈。 在不需要任何内核内存参与的条件下,RDMA请求从用户空间发送到本地网卡,再通过网络发送给远程网卡,这就减少了在处理网络传输流时内核内存空间与用户空间之间环境切换的次数,降低了网络时延。 基于对“HPC高性能计算的网络需求”和“RDMA技术”的分析和理解,星融元Asterfusion推出了CX-N系列超低时延云交换机使用RoCEv2,降低传输协议时延目前RDMA的网络层协议有三种选择,分别是 星融元Asterfusion CX-N系列云交换机搭建的超低时延无损以太网能够很好地承载RoCEv2,并基于RoCEv2打造一张低时延、零丢包、高性能的HPC高性能计算网络。 图片超低时延交换芯片,降低网络转发时延星融元Asterfusion CX-N系列云交换机,具备业界领先的超低时延能力,可满足高性能计算三大典型场景的低时延网络的需求以及对紧耦合场景中“对于各计算节点间彼此工作的协调
1,自研PharmAID,率先接入Deepseek R1 作为医药行业AI转型的先行者,复星医药近期在内部发布了自主研发的PharmAID决策智能体平台,构建起覆盖创新研发场景的全生命周期智能决策网络。 3,打造“AI+X“智慧医疗生态 在医疗器械领域,复星杏脉是复星医药旗下一家专注于医疗AI领域的科创型企业,是目前国内少数实现“放射、病理、超声、心脏、呼吸、骨科、神经、甲乳外科”等多科室布局的人工智能医疗服务整体解决方案企业 复星杏脉深入医疗机构与基层健康服务场景,挖掘真实需求,完善早筛、远程诊疗、精准医疗等分级诊疗核心场景服务能力。 复星杏脉AI-ROSE智能辅助分析系统 复星杏脉AI医学影像产品能够快速、精准地分析医学影像数据,为医生提供辅助诊断建议,帮助医生更高效地发现病变、评估病情,从而提高诊断准确性和及时性。 截止目前,复星杏脉的拓展足迹已覆盖全国70%地域,业务遍布20余省,已建立近10个区域智慧医疗项目落地样板。目前已发布及在研AI产品超过70款。