两相液冷的决胜关键:不止降温,更是精准控温
摘要:AI算力驱动单机柜功率突破30kW甚至120kW,传统风冷与单相液冷面临局部热点、温度波动大等短板。行业需求正从“散热”转向“精准控温”。两相液冷利用相变潜热与恒温钳位特性,塔能在多个生产项目(负载波动±30%)中实测将芯片温度波动控制在±1.5℃以内,显著减少降频,提升算力利用率。结合芯片级冷板、机柜级后置面板及智能CDU的系统架构,支持新建集群与存量机房不停机改造。某数据中心采用塔能两相方案改造后,机柜功率从8kW提升至25kW,PUE降至1.2以下,实现从基础散热到精准控温的升级。
一、行业格局升级:算力密度飙升,热管理迎来临界点
1.1 AI算力爆发推动机柜功率密度持续攀升
近年来,随着大模型训练和推理任务成为数据中心的核心负载,AI集群的芯片功耗急剧上升。主流GPU单卡功耗已突破700W,部分高阶计算单元接近1kW级别,某头部芯片厂商下一代产品单芯片热设计功耗已高达1200W。超节点架构的普及,进一步推动了智算中心单个机柜功率突破120kW。这意味着传统风冷系统已无力应对,即便是单相液冷,也在高热流密度场景中逐渐接近其能力边界。
1.2 行业需求悄然转变:从“能跑起来”到“能长期满载运行”
过去的数据中心项目,关注点集中在“设备是否正常启动”“冷却系统能否带走热量”这类基础保障。但如今,算力中心更关心的是:算力卡能否7×24小时稳定输出?是否存在因温度波动引发的频繁降频?机柜资源是否因散热瓶颈而无法充分利用?
这些问题的背后,反映出一个根本性转变:热管理不再只是配套支持系统,而是直接影响算力兑现效率与投资回报率的核心基础设施。据半导体行业公开技术文献,芯片温度一旦超过70℃,每升高10℃将导致泄漏电流倍增,进而引发性能衰减与可靠性下降;中国信通院《数据中心白皮书》指出,37%的数据中心服务器故障与过热直接相关。
1.3 政策与能效双重压力加速液冷升级进程
“东数西算”工程持续推进,叠加各地对PUE指标的严控,使得绿色低碳成为数据中心建设的刚性要求。2024年,国家发展和改革委员会发布的《数据中心绿色低碳发展专项行动计划(2024-2025年)》明确要求,新建大型和超大型数据中心PUE需降至1.25以下,国家枢纽节点项目PUE不得高于1.2。与此同时,存量机房面临扩容难、电力紧张、散热不足等问题,亟需通过高效热管理手段实现资源再盘活。
二、客户的真实困境:不是没做液冷,而是液冷“不够用”
2.1 单相液冷正在接近能力边界
目前,许多数据中心已部署单相液冷方案,确实解决了初期散热难题。然而在实际运行中,技术团队普遍反馈:虽然平均温度可控,但局部热点频发,芯片表面温差大,动态负载下温度波动剧烈——这直接导致AI训练任务中断、推理延迟增加。
根本原因在于,单相液冷依赖液体显热吸收热量,传热能力受限于流量与温升。当热流密度超过一定阈值(通常为15-20W/cm²),系统余量迅速收窄,即便加大泵速或提高流量,也无法有效抑制瞬态热峰。研究数据显示,两相沸腾换热在达到相同散热能力时所需的工质流量远低于单相方案。据行业公开技术资料,单相液冷的泵耗占比通常达12%-20%,而两相系统可将其压至5%以下。
2.2 改造项目面临“停不起、改不动”的现实困局
对于大量已投运的数据中心而言,全面更换冷却架构成本高昂且风险巨大。许多项目希望采用不停机改造模式,但在现有空间、管路布局和供电条件下,新增复杂的冷却系统往往难以实施。客户需要的不是推倒重来,而是一条平滑过渡、低风险兑现的升级路径。
据塔能项目验收报告(已匿名处理),某省电信机房原为风冷,单机柜功率8-15kW,PUE约1.52,夏季过热报警频发。采用背板级两相散热系统改造后,仅更换机柜后门,逐柜滚动施工未中断业务,改造后单机柜功率可支撑至25kW以上,PUE降至1.20,室外温度低于15℃时可实现完全自然冷却。
2.3 运维复杂度上升,平台能力成为隐形瓶颈
即使硬件完成升级,若缺乏统一的监控与管理平台,仍会导致“设备在线≠被管理”的局面。技术人员每天疲于排查告警、手动调节参数,无法实现真正的预测性维护和能效优化。热管理系统的价值,最终必须落在可管、可控、可运营的闭环之上。
三、真正的破局之道:从“散热”走向“控温”,构建系统级热管理能力
3.1 两相液冷的本质优势:利用相变潜热实现高效带热与温度稳定
与单相液冷不同,两相液冷通过工质在微通道冷板内发生液-气相变,吸收大量相变潜热,从而大幅提升单位体积的换热效率。以典型低沸点工质为例,1公斤冷却工质完全汽化所吸收的相变潜热,约为其从25℃加热至沸点所吸收显热的8-10倍。更重要的是,相变过程发生在恒定沸点温度下,天然具备“温度钳位”特性,可将芯片工作区温度锁定在最佳运行区间。
塔能多项目实测数据显示,在同等热负荷下,两相液冷系统的芯片温度波动可控制在±1.5℃以内,远优于单相系统的±8℃以上波动。这意味着GPU/CPU能够长时间处于高频稳定状态,显著减少热降频事件,提升整体算力利用率。
3.2 不止于冷板:芯片级、机柜级、站级三层能力协同贯通
先进的热管理方案,需要系统集成能力的支撑:
·芯片级:采用泵驱式两相冷板,微通道结构设计使流体在有限空间内实现高效换热与稳定流动,直接贴合CPU/GPU实现第一道热阻突破;
·机柜级:部署后置式两相液冷面板,兼容标准机架,支持热插拔与不停机改造;
·站级:配套集成冷站与智能CDU,通过PID闭环调节,在25℃-85℃区间连续改变工质沸点,实现±1.5℃主动控温。
这套“点-线-面”结合的架构,不仅适用于新建超高密度智算中心,更能为存量机房提供模块化、渐进式升级路径。
3.3 软件定义硬件:物联网平台让热管理走向智能运维
所有硬件能力的最终放大,都依赖于底层物联网精准节能平台的支持。该平台实现了三大核心功能:
· 实时采集每个冷板、传感器、泵组的运行数据;
· 构建数字孪生模型,可视化呈现温度场分布与流动状态;
· 基于实时数据生成节能策略,自动调节冷却参数并预警潜在故障。
这意味着热管理不再是被动响应的“消防队”,而是主动干预的“运行质量管家”。
四、从“保运行”到“提效能”:精准控温的系统性价值
4.1 新建看上限,改造看兑现
面向未来三年,新建智算中心追求的是极致密度与扩展弹性;而更广阔的存量市场,则迫切需要一条低风险、快交付、见效快的改造路线。能够同时服务于两种需求的方案,才具备真正的行业穿透力。
据塔能项目验收报告(匿名),某新建指挥中心项目通过芯片级与背板级双层两相系统协同部署,局部pPUE低至1.05。需要说明的是,pPUE为局部PUE指标,仅衡量特定区域的冷却能效,不代表数据中心整体PUE。
4.2 精准控温带来更高算力兑现率
衡量热管理价值的标准,不应仅是“温度降了多少度”,更应关注“系统稳定运行的时间提升了多少”“单位能耗产出的AI训练Token增加了多少”。
当控温精度提高,芯片无需预留过大安全裕量,即可长期运行在标称功耗区间,直接转化为更高的任务吞吐量与资源利用率。
4.3 构建以“物联网平台+精准节能”为底座的能力体系
这种能力的复利效应正在显现——在一个领域积累的平台经验,可快速迁移至另一个场景,形成跨行业的解决方案延展性。
技术团队真正需要的,是一套能持续保障算力稳定释放的系统方法。两相液冷正是这一系统方法的核心载体——它不止于散热,更通过精准控温将算力潜能充分兑现。
FAQ
Q1:两相液冷相比单相液冷,流量能减少多少?
在同等热负荷下,塔能两相液冷所需冷却介质流量约为单相方案的1/5至1/9,可显著降低泵组能耗。
Q2:存量机房改造需要停机吗?
采用模块化两相背板方案,单机柜施工时间控制在2小时以内,支持逐柜滚动实施,可在夜间或周末窗口完成,业务未中断。实际案例中,某华东地区数据中心完成改造(共150个机柜),PUE从1.8降至1.196,且未中断业务。
Q3:两相液冷能支持多高的机柜功率?
塔能两相方案当前可支持单机柜80-120kW,设计上可向上扩展至150kW以上,已通过实验室2500W以上解热能力验证。
塔能两相液冷,不止降温,更能精准控温——±1.5℃,让算力始终在线。
#塔能两相液冷 #精准控温 #算力稳定输出 #高密度算力 #液冷系统架构