随着AI工作负载将机架密度推向兆瓦级时代,冷却系统已不再只是辅助设施,而是整个数据中心架构的核心所在。
这一主题来自于在华盛顿特区举办的Data Center World联合会议,发言嘉宾包括Aligned Data Centers首席创新与技术官菲尔·劳森-尚克斯(Phill Lawson-Shanks),以及Trane Technologies高级副总裁兼首席技术与可持续发展官毛罗·阿塔拉(Mauro Atalla)。
过去,冷却只是一个设施层面的问题,即如何将热量排出机房;而如今,它已演变为一个横跨芯片、流体、控制系统及工作负载调度的系统级设计难题。
从散热到系统设计
劳森-尚克斯直接阐述了这一转变:热量始终是数据中心设计的制约因素,而AI正在改变热量的量级与行为方式。
"我们正从每机架数十千瓦迈向数百千瓦,甚至朝着兆瓦级机架的方向演进,"他说,"这从根本上改变了设施的设计与运营方式。"
过去那种部署基础设施、移交机房、被动响应负载变化的模式正在瓦解。AI基础设施要求IT系统与设施系统之间实现更紧密的协同。
这包括与楼宇管理系统及数据中心基础设施管理(DCIM)平台的深度集成,以及最终实现对工作负载调度器的可视化管控。
"你必须把整栋建筑视为一个有机的整体系统,"劳森-尚克斯说,"而不是各个独立层级之间的被动响应。"
需求激增与技术转型的碰撞
阿塔拉指出,需求增长与技术变革正在形成正面冲突。运营商一方面在向多吉瓦级园区规模扩张,另一方面又同步推进从风冷到液冷及混合冷却架构的转型。
"巨大的需求、交付时间的压力和技术演进同时叠加,"他说,"这相当于在系统运行的同时对其进行改造。"
冷却系统目前已占数据中心能耗的约20%,使其成为同时兼顾扩大算力和降低总功耗的少数可调节手段之一。
这促使供应商从芯片层面出发,转向系统级解决方案。
"热源决定一切,"阿塔拉说,"我们与芯片开发商打交道的时间,和与运营商打交道的时间一样多。"
混合冷却成为主流选择
两位高管均认为,空气与液体的混合冷却架构将是近期的主流状态。
单相液冷预计可支撑未来数代芯片的散热需求。两相冷却系统虽在研发中,但仍受制于复杂性和制冷剂方面的挑战。
"单相液冷终将无法满足需求,"阿塔拉说,"但向两相的过渡必须以芯片需求为依据。"
劳森-尚克斯表示,运营商已在针对这种不确定性进行前瞻性设计。
"液冷回路一直是系统的组成部分,"他说,"现在的关键在于如何与风冷协同扩展,并随密度变化灵活应对。"
这种灵活性也延伸至设施设计本身。Aligned正在部署模块化的撬装式架构,将机架、电力和冷却系统打包成可复制的标准单元。
"你可以接入一个2到3兆瓦的单元,然后以此为基础持续扩展,"劳森-尚克斯说。
冷却响应速度成为可靠性关键
转向液冷也让时间因素成为日益重要的运营挑战。风冷环境在达到热量临界值之前可以容忍数分钟的中断,而液冷系统能承受的中断时间只有数秒。
"液冷没有那个缓冲空间,"劳森-尚克斯说,"机械侧必须实现即时连续运行。"
这推动了对热缓冲新需求的产生,包括储能水箱以及与电力系统的更紧密集成。
这也改变了运营商与客户之间的风险分担模式,尤其是在机架层面的责任边界划分上。随着系统集成度的提升,问题已从"能否实现更紧密的控制"转变为"谁来主导这一控制权"。
阿塔拉表示,技术层面的障碍基本已经解决。
"这不是技术限制,"他在Data Center World会议上说,"而是设计理念与风险承受能力的问题。"
运营商已在将遥测数据汇聚至集中化数据平台,并向客户开放部分可视化权限。但真正意义上的双向控制,即工作负载实时反馈给冷却系统,目前仍十分有限。
"如果我们能提前感知工作负载的到来,就可以预先备好冷却状态,"劳森-尚克斯说,"但目前能做到这一点的环境非常少。"
可持续性与效率目标趋于一致
尽管复杂度有所上升,两位高管均认为可持续性与性能正在走向融合,而非相互对立。
"降低能耗会产生级联效益,"阿塔拉说,"性能与可持续性之间并不存在取舍关系。"
这种趋势推动了对余热再利用的关注,但落地情况因地域而存在较大差异。
欧洲已有将数据中心余热用于区域供暖和温室供热的案例。而在美国,数据中心与热能需求方之间的地理距离限制了类似机会的发展。
尽管如此,阿塔拉仍将数据中心定位为"热能生产工厂",认为其最终有望融入更广泛的能源生态系统。
"没有放之四海而皆准的解决方案,"阿塔拉说,"随着时间推移,行业会走向标准化,但眼下每家机构都在尝试略有不同的路径。"
Q&A
Q1:数据中心冷却系统为何会成为AI时代的核心挑战?
A:随着AI工作负载不断增加,机架密度从过去的数十千瓦迈向数百千瓦甚至兆瓦级,冷却系统需要应对的热量量级和行为都发生了根本性变化。冷却已不再只是设施问题,而是涉及芯片、流体、控制和工作负载调度的系统级设计挑战,同时冷却能耗约占数据中心总能耗的20%,兼具扩算力与降功耗的双重意义。
Q2:液冷系统和风冷系统在可靠性上有什么区别?
A:风冷系统在达到热量临界值前可以容忍数分钟的中断,而液冷系统由于缺乏热缓冲,能承受的中断时间只有数秒。这意味着液冷对机械侧的连续性要求极高,需要配备储能水箱等热缓冲装置,并与电力系统更紧密集成,同时也改变了运营商与客户在机架层面的责任边界划分方式。
Q3:数据中心的余热再利用目前发展到什么程度了?
A:余热再利用的落地情况因地域而异。欧洲已有将数据中心余热用于区域供暖和温室供热的实际案例,而美国由于数据中心与热能需求方之间地理距离较大,相关机会受到限制。业界将数据中心视为"热能生产工厂",认为其未来有望融入更广泛的能源生态,但目前尚无统一的标准化方案。