本文将从政策和芯片角度剖析数据中心交换机引入液冷技术的必要性,就液冷技术不同方案的差异化,探讨锐捷在冷板式液冷交换机和浸没式液冷交换机的研发经验及成果。 因此,更高效能的面向下一代IT设备的液冷技术出现。未来5-10年,数据中心风冷散热会逐渐被液冷替代也成为业内共识。 相较而言,单相液冷复杂度更低更易实现,且散热能力足够支撑数据中心IT设备,是当前阶段的平衡之选。 图3 数据中心IT设备主要散热方式 单相液冷分为冷板式液冷和浸没式液冷。 图7 32*100G 浸没式液冷数据中心接入交换机 图8 48*1G+4*10G 浸没式液冷管理网交换机 在2021年11月全球OCP峰会,锐捷网络正式发布64*400G冷板式液冷NPO交换机,满足数据中心和运营商网络的高可靠性要求 图10 64*800G冷板式液冷NPO数据中心交换机 锐捷网络率先让液冷技术应用于数据中心交换机,既解决自身散热难题,又能和液冷服务器统一部署,便于数据中心基础设施的统一建设和运维。
静思工作站 IW7210-4GTi 四卡+双路CPU液冷 | 液冷静音工作站 静思工作站 IW7210-4GTi 是思腾合力历时一年专为办公场景倾情打造的一款水冷GPU工作站 ,支持第二代 Intel 此外,思腾合力提供1-10卡GPU工作站、服务器、集群管理解决方案,支持配置定制化产品。 详情请咨询杨经理 电话:17868586138 ▼ 点击“阅读原文”查看思腾合力产品
在数据中心浸没式液冷方案中,主设备浸没在特殊的液体中,使用传统的光模块或者有源光缆,经过长时间的浸没,液体可能会渗入光路中,从而使通信中断。 大成鹏通信隆重推出CIPanel浸没式液冷数据互联解决方案,不同于传统注胶AOC的解决方案,该解决方案是将主设备的接口通过铜缆延长扩展到液上,而后再通过传统光模块、有源光缆AOC、无源铜缆DAC实现数据互连 四:总结 大成鹏通信浸没式液冷数据互联解决方案CIPanel,完全避免了传统光互联产品可能因液体侵入而导致的阻塞光路从而中断通信的问题,极大提高可靠性的同时,兼顾便捷部署、维护、美观等特点
例如,东数西算工程启动了10个国家数据中心集群,规模化、规范化和高水平的要求,对于液冷数据中心的交付能力极为考验。 在产品层面,浪潮信息充分考虑到市场上差异化需求,拥有包括冷板式液冷、热管式液冷、浸没式液冷等各类型的产品;以冷板式液冷数据中心产品为例,浪潮信息拥有从液冷机柜到紧凑型微模块、单排微模块、双排微模块等一系列模块化液冷数据中心产品 以本次发布的天枢(ORS3000S)液冷整机柜服务器为例,就是浪潮信息多年研发积累的典型成果,天枢(ORS3000S)液冷整机柜服务器采用N+N冗余的集中供电设计,比分布式电源模式整体效率提升10%,一体化交付方式则让交付速度提升 5-10倍。 此外,浪潮信息已建成迄今亚洲最大的液冷数据中心研发生产基地——“天池”,构筑覆盖研发、测试、生产、交付的全链条液冷制造能力,年产量达到10万台,并且实现业界首次冷板式液冷整机柜的大批量交付,交付周期缩短至
随着数据中心液冷方案进入主流视野,电信从业者亟需深入理解液冷技术特性。在ECOC等行业展会上,已出现运行于鱼缸气泡中的交换机与光模块。 液冷架构由多个部分组成,并且每个部分还可以继续细分,但本质上液冷架构可以描述为三个部分:热捕获,热交换,冷源。 液冷兴起的原因 从传统风冷向数据中心液冷的转变主要受人工智能和机器学习驱动。这些技术对计算能力提出了巨大需求,进而催生了对超高性能计算机芯片的需求。 面对如此高的功率密度,液冷正成为未来的解决方案。那么,液冷有哪些优势和类型? 液冷的优势源于其物理特性:液体是比气体(如空气)更好的热导体,具有更高的体积热容。 液冷系统的附带优势包括运行安静(液冷管道几乎无声,而风冷风扇噪音较大)和更紧凑的安装空间。液冷系统所需液体质量远小于风冷系统的设备和管道体积。
计算机视觉研究院专栏 Column of Computer Vision Institute 液冷人工智能开发平台! Exxact提供的新发布的液冷AI解决方案配备了两个最新的第四代Intel Xeon Scalable CPU,并通过两个NVIDIA A100 PCIe GPU加速,所有这些都是液冷的。 Exxact TensorEX TWS-194019223 是一款预制液冷5U机架式工作站,具有双英特尔至强可扩展6444Y CPU和4个NVIDIA A100 80GB NVLinked GPU,通过双 10GBASE-T和NVIDIA CX6 25GbE网络交付。 TensorEX TWS-167626740是可配置不同第四代英特尔至强可扩展CPU的可定制平台,并提供7个PCIe 5.0 x16插槽,支持多达4个液冷NVIDIA A100 80GB GPU。
大约10年前,人们发现将水冷管道通过机架直接接入到服务器上,并配合处理器散热器上的水冷铜座共同发挥作用,这种方式的散热效率相比之前的更好。 目前,对于浸没液冷技术国内外很多厂商都都进行了研究,例如,IBM公司从20世纪70年代开始浸没液冷的研究,具有30多项机架式浸没液冷专利。美国的GRC开发了高沸点单相浸没的碳氢溶剂制冷系统。 另外,我国的一些企业也在研究开发相关浸没液冷技术,例如曙光,从2012年开始就对液冷服务器技术进行了探索和研究。 浸没液冷技术之所以受到众多厂商的青睐,主要是因为它突出的性能。 虽然浸没液冷技术有诸多的优势,但是目前却无法大面积的使用在已建数据中心中,因为如果采用浸没液冷方式的话,需要对原有的数据中心结构进行较大改造,而这对于数据中心运营商来说是一笔不小的成本,另外,许多热负荷较低的小型数据中心机房可能并没有必要采用液冷的必要 不过,浸没液冷技术的前景还是非常客观的,近几年,国内数据中心的建设如火如荼,并且数据中心正在向大型和超大型方面发展,液冷技术将会更好的发挥其技术优势。
误码率(BER)测试 - 800G DR8光模块:基于64端口交换机进行测试,结果显示误码率低于3.1e-8,平均误码率为1.92e-10,这表明线性光模块在性能方面表现十分优异。 - 800G FR4光模块:针对短、中、长距离通道进行了测试,均展现出良好的误码率数据,平均BER为4.13e-10。 2. 三、液冷光模块方案 (一)技术优势 - 能效提升:双相浸没式冷却相较于空气冷却,能够显著降低数据中心的PUE。光模块直接浸没于冷却液中,通过液体相变进行散热,进一步优化了系统级能效。 - 液冷光模块:通过硬件设计创新,如MPO接口,与散热方案相结合,为数据中心能效提升提供了新的途径。未来,需要通过行业协同测试,如OCP标准适配,来验证其在多系统中的兼容性。
液冷技术通过液体直接冷却发热器件,液体的导热能力是空气的25倍,液体的体积比热容是空气的1000~3500倍,液体的对流换热系数是空气的10~40倍,同等情况下,液冷的冷却能力远高于空气。 研究表明,当芯片的工作温度接近70-80℃时,温度每升高10℃,芯片性能会降低约50%。 数据中心的电能消耗主要由IT设备(45%)、制冷设备(43%)、供配电系统(10%)、照明等(2%)构成。空调系统在数据中心能耗占比仅次于IT设备,在无法升级IT系统时,降低空调系统能耗是重要环节。 液冷技术的分类液冷系统根据液体与硬件直接的接触方式分为直接液冷和间接液冷,直接液冷就是液体与需要冷却的硬件组件直接接触达到冷却的目的,又可分为浸没式和喷淋式;间接液冷是指液体不与硬件直接接触,通过一个中介组件 一体化交付还是解耦式交付目前冷板式液冷服务器有三种交付模式,①IT设备侧仅交付液冷服务器;②IT侧交付“液冷服务器+液冷机柜”;③IT侧交付“液冷服务器+液冷机柜+CDU+二次侧管路”。
在八个算力枢纽中,东数西算工程共规划10个国家数据中心集群,依托八个枢纽十个集群,有利于集中政策和资源,更好地引导数据中心集约化、规模化、绿色化发展。 三、十大集群旨在保障底层资源,优化计算效率 在八个算力枢纽内,东数西算工程在全国规划共计10个数据中心集群。每个集群都是一片物理连续的行政区域,具体承载算力枢纽内的大型、超大型数据中心建设。 东数西算规划10个国家数据中心集群,持续建设将刺激服务器采购需求。 为何液冷数据中心如此重要 全球单机柜功率正在上升,在“双碳”政策的支持下,风冷器换液冷器已成大势所趋。 根据《2021-2022年度中国数据中心基础设施产品市场总体报告》,2021 年我国单机柜功率在 10kW 以上的数据中心市场规模增速超过 10%,其中 30kW 以上增速达 31%。 政府间气候变化委员会于2018年10月8日发布报告,提出将全球变暖限制在1.5℃,需要加快土地、能源和产业转型,在2050年前后实现“净零”排放。
二、液冷不是新东西,只是以前“用不起、玩不转”1️⃣液冷到底在干嘛?别被名词吓到说白了就一句话:用液体,替代空气,把热带走。因为液体的导热能力,比空气高一个数量级以上。 常见的三种液冷方式:冷板式(Direct-to-Chip):冷却液直接贴着CPU/GPU流浸没式液冷:服务器直接“泡澡”后门换热(RearDoorHX):给风冷打补丁我个人的看法很明确:未来十年,真正的主流是 2️⃣液冷为什么突然“火”了?不是因为它多先进,而是因为:风冷真的快到物理极限了AIHPC大模型太吃功耗了PUE再压不下来,账就算不过来一句话总结:不是液冷多香,是风冷已经不行了。 三、但光有液冷,还远远不够如果你以为:“上了液冷,节能问题就解决了”那我可以很负责任地说一句:想多了。 六、液冷+AI调度,真正的价值在哪?
联动液冷系统闭环控制:将温湿度数据与冷却液流量、温度、压力等参数融合,动态调节液冷机组运行策略,降低 PUE 至 1.1 以下。以太网温湿度传感器二、系统架构设计(分层适配液冷场景)1. -30℃~90℃),带防结霜功能;Modbus TCP/IP 协议,POE 供电每台冷源 1-2 个机房环境(冷热通道)空气温湿度、露点温度内置露点算法(露点 = 温度 - 湿度关联计算),采样频率≥10Hz (快速响应波动)每 30㎡1 个,通道两端加密液冷管路接口表面温度(防冷凝)接触式温度探头,响应时间≤1 秒,抗电磁干扰(EMC Class B)每 10 个接口 1 个(2)传感器核心特性• 必须支持 传输层:抗干扰冗余网络设计• 传输链路:采用工业级以太网交换机(支持环网冗余),传感器数据通过 RJ45 接口接入机房万兆局域网,单链路延迟≤10ms,确保高密度传感器(数百个节点)并发传输不拥堵。 校准周期:每 6 个月对传感器进行校准(液冷环境温度波动大,易导致精度偏移),优先采用现场校准仪(避免拆卸传感器影响液冷系统密封)。3.
最近几年,SC大会的展区上总少不了液冷的身影,这一方面是由于液冷技术的发展,另一方面也是传统风冷面对超级计算机这种性能“怪兽”有点力不从心。 虽然相对于风冷平台来说,液冷设备的初期采购成本相对贵一些,但是对于一台服务器来说,一般的生命周期都要在3-5年,而这么长的时间内液冷所提供的散热效率和节能优势,已经低于风冷平台的采购成本。 在算明白这本“经济账”之后,越来越多的超算用户开始讲目光聚焦在液冷平台上来,TOP500榜单中排名靠前的多套系统都采用液冷散热,比如中国顶尖的神威·太湖之光和天河二号A。 这样一来,无论是全新采购还是老设备利旧,戴尔科技的液冷解决方案都可以让你的数据中心焕发生机。深耕FPGA,戴尔结下产业应用累累硕果 在看完了液冷解决方案之后,Tom又带我来到了AI与工作站的展区。 尤其对于那些数据串行排列需要解决运算的场景,比如基因测序、深度学习、大数据分析、安全应用、超算、存储编码等等,FPGA的表现尤其突出,而且在很多应用场景中,其性能会比通用处理器快10倍甚至是100倍,并且功耗非常低
IT设备的生命周期相对较短,一般是5年或者更少,而暖通系统的生命周期为10年甚至更长。因此,暖通系统的设计需要考虑如何满足未来IT设备的需求,包括风冷、液冷或者风液混合场景的需求,这是一个挑战。 关于液冷,我们是如何考虑的 第四个重要方向是液冷技术。在决定是否采用液冷技术时,我们需要考虑一些因素。 对于腾讯来说,由于拥有大量的风冷服务器和风冷机房,从部署和运维兼容性的角度来看,冷板式液冷技术是一个比较匹配的选择。 如果我们选择冷板液冷技术,那么液冷和风冷的功率占比就变得非常重要。 因此,对于一台服务器而言,液冷和风冷所占总功率的比例至关重要。不同类型的服务器具有不同的比例,例如,大数据存储服务器的液冷比例约为45%,而GPU训练服务器的液冷比例可高达85%。 在行业中已经存在一些采用液冷架构方案的案例,其中风冷和液冷共用设施冷源。这种架构能够支持100%的风冷模式。
“算力“无界”需求推动了高端计算的发展,而液冷服务器是高端计算的关键基础设施。液冷服务器能够有效解决热管理问题,保持系统在高负载下的稳定运行。 宁畅B8000 算力至强,操作至简 “无界”的算力需求对液冷服务器提出了新的要求,既需要强大的性能,也需要简便的操作。这些宁畅B8000液冷整机柜服务器都可以达到。 B8000节点内液冷覆盖率超过90%,PUE(功耗比)可低至1.09,这基本上达到了冷板液冷的“极限”。 此外,冷板液冷技术能够在更小的空间内提供更高的散热能力,从而提高计算密度,进一步提升性能。 采用了冷板液冷技术的B8000整机柜服务器,单节点可支持两颗英特尔至强第五代可拓展处理器,核心温度下降超过15度,算力性能提升10%,单柜功率上限可达100kW,比传统风冷整机柜提高了3-4倍。 今年9月发布的《2023先进计算企业竞争力研究》白皮书显示,液冷产业加速发展,宁畅2023年上半年液冷服务器市占率增速位居第一。
,聚焦带宽与功率密度攀升引发的散热瓶颈,提出OSFP-D2P直插式液冷解决方案,为下一代高功率光模块热管理提供了关键技术路径。 第一代为顶部冷板式风冷方案,依赖外部散热片通过干接触界面与模块贴合散热,热阻较高;第二代顶部冷板式液冷方案以液冷冷板替代散热片,利用液体优导热性提升效果,但未摆脱干接触界面的热阻损失。 模块插入主机卡时,电气连接与液冷连接同步完成,冷却液流入冷板吸收热量后回流,实现“即插即冷”。 笼体后部采用开放式结构,允许快接接头突出并在笼体后方盲配,且不遮挡面板气流,兼容混合液冷/空冷系统。 相比之下,顶部冷板式液冷方案在30℃冷却液下仅能冷却55W,45℃时降至45W;风冷方案散热极限约35W(±10%浮动),且需承担额外风扇功耗与噪音代价。
一个直接的例子就是普渡大学的Bell集群,10个机架的戴尔PowerEdge C6525 服务器直接浸没在冷却液中,运行时产生的热量直接被冷却液吸收,PUE最低可以降到1.05左右,散热所需的功耗比传统方案降低了 可以看到的是,液冷技术的出现和应用,在很大程度上让计算和散热跳出了“囚徒困境”,对风冷降维打击的综合优势,也让液冷技术被不少人捧上神坛。 然而和很多新技术一样,液冷方案同样存在天然短板:冷却液的价格堪比茅台,无形中增加了散热的硬性成本;液冷技术对数据中心的机房环境要求苛刻,重新改造的成本较高;液冷技术降低了PUE,运营成本却难言优势…… 有机构曾经估算,即使是在现有的散热方案下,即使按照工业平均电价每千瓦时0.5元来计算,数据中心所在地的气温每降低1℃,10万台服务器的标准数据中心机房每天可节约9.6万元的电费。 04 写在最后 根据赛迪顾问的预测,2025年中国浸没式液冷数据中心的市场规模将超过526亿元,市场份额有望突破40%。 站在行业的立场上,液冷散热的高速普及不失为一个好消息。
当前万卡集群成为AI大模型竞赛的“入场券”,10万卡集群正成为科技巨头竞逐的新高地。 2024年底马斯克旗下xAI公司位于田纳西州孟菲斯市的Colossus超级智算集群(目前全球最大的单体全液冷数据中心)仅用时214天便顺利投产,其中首期10万H100芯片部署仅耗时122天,二期扩容更是压缩至 每个服务器配备了四个可支持热插拔冗余电源 液冷设计:直接芯片液冷 (D2C) (覆盖GPU, CPU, PCIe交换芯片),尤其是主板集成了通常位于独立子板上的Broadcom PCIe Gen5交换芯片和创新性的加入定制液冷模块 ② 模型B (10-POD):工程实践上的“标准POD”方案 (10-POD),考虑工程实际可落地性如匹配机房物理空间、控制故障域大小和渐进式部署。 4.1 全面液冷:从芯片到机柜的散热革命 芯片级直接液冷(D2C):Colossus的核心散热方案是由Supermicro设计和集成的端到端直接液冷(Direct-to-Chip)系统 ——定制化的冷板
英伟达GTC 2024大会发布GB200芯片及配套架构,通过提升GPU互联带宽、采用高性能光模块和交换机,并部署液冷技术,推动AI计算效能与数据中心能效升级。--通信百科公众号注! 同时发布全球首批端到端800G吞吐量的InfiniBand和以太网交换机,以及采用液冷技术的服务器解决方案,全方位推动AI计算性能革新和数据中心能效提升。 为了让这些计算快速运行,英伟达将采用液冷的设计方案,冷却液输入/输出水温分别为 25℃/45℃。 除了英伟达,AI 服务器厂商超微电脑预计将在24Q2内扩产液冷机架。 GB200 NVL72 液冷机架示意图 同时,国内产业链也在协同推进液冷技术的发展。 三大运营商在去年 6 月发布了《电信运营商液冷技术白皮书》,并提出 25 年及以后液冷在 50%以上项目规模应用的愿景。 电信运营商液冷技术规划 部分内容源引于“华泰证券”的研究报告
如全国一体化算力服务平台,目前实现了与 10余家计算中心的极速互联与融合调度,并初步建设集算力、存储、数据等增值服务。 在解决实践中,基于浸没相变液冷技术和高密度刀片系统,产业界已经将单机柜功率做到了160KW,未来高密度数据中心或将加速采用液冷。 为满足低PUE值的要求,市面出现了两种主流方案: 一种是将数据中心迁移到常年低温的高纬度地区,利用自然冷源降低散热系统的耗电量; 一种是用液冷取代传统风冷,并衍生出了冷板液冷、浸没相变液冷等多种散热方案 曙光浸没式相变液冷技术(运行局部) 如今液冷数据中心正展现出如风冷一样的高可靠性,采用曙光液冷技术建设的国内首个标准化液冷数据中心,已持续稳定运行近2700天。 且相较于传统的风冷散热,采用曙光液冷技术建设的众多液冷数据中心年节电量已达2亿度,相当于减少2.45万吨标准煤燃烧或6.6万吨二氧化碳排放。