两相液冷：精准控温助力算力稳定输出

文章来源：企鹅号 - 塔能两相液冷

摘要：同样的硬件，为什么别人训练快你7%？因为热降频。塔能两相液冷将芯片温度波动控制在±1.5℃，降频事件减少90%以上。某4000卡集群改造后，训练任务完成时间缩短7%，每年算力增收超600万元。控温就是兑现算力。塔能两相液冷，不止降温，更能精准控温——±1.5℃，让算力始终在线。

一、算力的隐形杀手：热降频

1.什么是热降频？

芯片温度过高时，内部保护机制会自动降频降压以减少发热。H100 GPU标称频率约1.8GHz，当温度超过85℃时，频率可能降至1.5GHz以下，算力损失15%-20%。对于需要稳定算力的AI训练任务，这种降频会显著影响训练效率。

2.热降频有多频繁？

AI训练负载呈脉冲式，前向传播负载较低，反向传播负载骤升，毫秒级波动易引发温度尖峰和降频。单相水冷集群在大模型训练中每周降频3-5次，每次持续数十秒至数分钟，夏季高温时段部分GPU几乎每小时降频。降频不仅导致当前计算重做，还会拖慢整个分布式集群的同步效率。

3.降频的代价：训练时间延长、成本增加

一次短暂的降频可能只会延迟几秒钟，但累积效应惊人。以一个需要训练30天的大模型为例，每周3-5次降频，每次平均损失20分钟，30天下来累计损失约8-12小时。如果降频更频繁（如每周10次），损失可达20-30小时。更重要的是，降频往往发生在训练的关键阶段。当模型收敛进入瓶颈期时，任何中断都可能导致需要回退到上一个检查点，进一步放大损失。很多算法工程师反映，因为降频导致的训练不稳定，他们不得不额外增加10-20%的迭代次数才能达到预期精度。

二、塔能两相液冷如何让降频显著减少？

1. ±1.5℃控温，保持稳定

塔能两相液冷利用相变恒温特性：工质在固定压力下沸腾温度恒定，芯片发热时冷板表面温度被“锚定”在沸点附近。塔能多项目实测显示，芯片温度波动控制在±1.5℃以内，最高温度约76.5℃，若芯片降频阈值为85℃，安全余量超过8℃，降频事件显著减少。即使机房空调故障等极端工况，系统也可主动调节压力改变沸点，保持稳定控温，这是单相水冷不具备的自适应能力。

2.瞬态响应：＜2秒稳定

单相水冷面对200W600W负载跃升，需5-10秒稳定，温度可能超过85℃触发降频。塔能两相液冷泵驱主动控温系统毫秒级响应，实测温度过冲约0.8℃，稳定时间小于2秒，最高温度76.5℃，远低于降频阈值。这2秒的响应差距对降频的发生有重要影响。

3.芯片表面温差≤±1℃，无热点

单相水冷板表面温差可达±8℃以上，整体温度看似正常，局部热点可能已触发降频。塔能两相液冷表面温差≤±1℃，芯片温度均匀，所有计算单元均可全速运行。对于AI训练中发热集中的Tensor Core区域，均匀温控避免了局部瓶颈。

三、实战案例：训练任务提速7%

某公司使用4000张H100 GPU集群训练感知模型，原计划30天，但每周发生约6次降频，每次损失25-30分钟，30天累计损失15-18小时，且夜间降频导致次日需人工重启任务。该公司对其中2000张GPU改造为塔能两相液冷，分批对比运行3个月：改造组降频事件未再发生，28天完成训练；未改造组仍每周5-6次降频，实际耗时33天。改造组训练时间缩短约7%，按日运行成本20万元计算，节省100万元；模型提前5天上线，带来商业收益超500万元。该负责人表示，降频并非不可避免，塔能两相液冷方案使训练任务可连续稳定运行。

塔能两相液冷，不止降温，更能精准控温——±1.5℃，让算力始终在线。

，时长

FAQ

Q1：±1.5℃控温真的能有效减少降频吗？

是的。GPU降频阈值通常在85-90℃，且芯片留有安全裕量。塔能两相液冷将温度控制在设定点（如75℃）±1.5℃范围内，最高不超过76.5℃，远低于降频线。实测多项目降频事件减少90%以上。

Q2：训练任务提速7%是如何计算的？

基于某4000卡集群改造前后对比。改造前因降频导致平均训练任务延长约7%（每周3-5次降频，每次损失约30分钟，累积占7%）。改造后降频显著减少，任务按原计划完成，相对提速7%。具体提速幅度因任务类型、负载率、环境温度而异。

Q3：高频交易场景对控温有什么特殊要求？

高频交易通常使用FPGA等可编程芯片，对温度极其敏感。温度波动会导致时序收敛变差、逻辑错误率升高，甚至引发交易延迟异常。塔能两相液冷±1.5℃控温为FPGA提供了稳定热环境，在特定测试环境下，误码率显著下降，交易延迟的P99值从改造前的±15μs缩小到±2μs。已有头部量化机构采用塔能两相液冷方案。

#算力兑现 #AI训练提速 #±1.5℃控温 #塔能两相液冷

发表于: 2026-06-092026-06-09 20:45:19
原文链接：https://page.om.qq.com/page/O_s5ETGz8e6Lav4O0cI23UDg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

两相液冷：精准控温助力算力稳定输出

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐