
人工智能大模型和智能体的基础设施:万亿级AI基建,电力算力即权力
文 | 走向未来
人工智能正站在一场新工业革命的中心。如同历史上的蒸汽机、电力和互联网,这项通用技术有望重塑全球经济,释放数以万亿计的生产力。然而,这场革命的实现并非仅仅依赖于算法的精进或模型的庞大,它有一个更根本的、物质层面的依赖:一个为之配套的、庞大且昂贵的物理基础设施网络。脱离了这个“基石”,人工智能的潜力将无法被规模化释放。因此,理解和建设这个基石,已成为当前全球经济和地缘政治格局下的核心议题。
这场即将到来的变革,预计在未来十年内为全球经济带来超过十万亿美元的生产力增长,甚至可能引领人类进入一个“富足时代”。但实现这一愿景的代价是巨大的。据估计,未来十年,全球在人工智能相关基础设施上的总资本支出将超过七万亿美元。这个庞大的数字并不仅仅是市场热情的体现,其背后有两大坚实且持久的需求驱动力在支撑。本文的PDF版本及参考资料都可以从“走向未来”知识星球中获取。
第一个驱动力源自国家层面的战略布局。人工智能已迅速转变为一个关乎国家主权和安全的战略优先事项。全球主要经济体,中国之外,包括美国、欧洲多国、加拿大和日本,都已清醒认识到,计算能力正成为一种新的国家实力象征。在商业竞争和国家安全利益的双重驱动下,各国政府正积极介入,通过公共与私营部门合作(PPP)的模式,斥巨资赞助本土的“人工智能超级工厂”,竭力保护关键的芯片供应链,并调整政策以吸引人工智能基础设施投资。例如,法国和瑞典政府已分别宣布了与私营资本合作的数百亿级投资计划,旨在构建国家级的人工智能基础设施。这种主权需求为人工智能基础设施提供了非商业周期的、稳定的长期需求底座。

第二个驱动力则是一个看似反常的经济现象:杰文斯悖论(Jevons Paradox)。市场中存在一种担忧,认为随着人工智能模型变得越来越高效,例如处理相同任务的成本大幅下降,所需的基础设施将会减少。然而,历史经验和经济规律却揭示了相反的图景。正如更高效的蒸汽机最终导致了煤炭消耗量的激增,更便宜的电力带来了全球电力市场数十倍的扩张,人工智能的效率提升和单位成本下降,也将极大地激发新的应用场景和更广泛的采用。当计算成本趋近于零,无数目前因成本过高而无法实现的应用将被开发出来,这将导致对总计算能力和总能耗的需求呈爆炸性增长,而非萎缩。
要支撑如此庞大且持续增长的需求,所需的基础设施在规模和技术上都远超传统。这个价值七万亿美元的“基石”主要由四个紧密相连的部分构成。

首先是人工智能工厂,即下一代数据中心。这是整个基础设施投资的核心,预计占总投资额的绝大部分,约四万亿美元规模。这并非传统意义的数据中心。传统数据中心主要依靠空气冷却,单个机架的功耗通常在10到15千瓦。而人工智能工厂为支持高密度运行的图形处理器(GPU)集群,其机架功耗激增10倍以上,普遍超过120千瓦,甚至更高。这迫使基础设施必须采用先进的液体冷却乃至浸没式冷却技术。这种高密度的专业化设施是运行先进人工智能模型的唯一场所,预计其全球总装机容量在未来十年将增长十倍以上,达到超过80吉瓦(GW)的惊人规模。

其次是电力与传输系统。这是当前人工智能规模化发展中最大、最紧迫的瓶颈。人工智能工厂是贪婪的“电老虎”,其巨大的能源需求给现有的电网带来了前所未有的压力。然而,真正的制约点不在于发电能力本身,而在于电力的“传输与接入”。在许多关键市场,建设一座人工智能工厂本身可能只需要两年时间,但获得电网的并网许可和完成配套设施建设,平均需要六到十年。这种时间上的巨大错配,使得“电力”成为限制人工智能发展的决定性因素。
第三是计算基础设施本身。这主要指以GPU为代表的高性能AI芯片。如果说人工智能工厂是厂房,那么GPU就是厂房中的引擎。GPU的性能在过去十年中实现了千倍的增长,其发展速度已远超传统的摩R尔斯定律。随着模型规模的持续扩张,对GPU的需求量也在同步激增,预计未来十年全球GPU的安装基数将增长七倍,达到约4500万颗。这个规模四万亿美元的市场,构成了人工智能基石的计算核心。
第四是战略性的辅助设施和资本合作。这包括支持数据高速传输的专用光纤网络、先进冷却技术的研发与部署、以及半导体制造厂的本土化回流。特别是芯片制造厂的建设,已成为各国保障其人工智能战略安全的关键环节,这同样需要巨额的资本投入。
面对如此清晰而庞大的基础设施需求,一系列具有可投资性的商业模式正在浮现,它们共同构成了支撑人工智能革命的资本通路。
最直接的模式是开发和运营人工智能工厂。凭借在土地、电力、冷却和建设方面的专业知识,开发商可以为超大规模云服务商和人工智能实验室提供定制化的高密度数据中心。由于其高度的复杂性和巨大的资本需求,这一领域展现出相较于传统基础设施更具吸引力的经济效益。
针对电力瓶颈,一种创新的“表后”(behind-the-meter)电源解决方案正成为关键。鉴于公共电网的接入延迟,许多大型人工智能园区正被迫转向建设现场的专用发电设施,例如使用天然气轮机,乃至探索小型模块化核反应堆(SMR)等先进核能技术。这催生了一个新的投资领域:为数据中心提供模块化、可扩展的现场电力解决方案。通过构建长期的能源供应合同,这种模式可以为投资者提供稳定的现金流回报。
此外,鉴于GPU硬件的极端昂贵,一种“GPU即服务”(GPU as a service)的融资模式也应运而生。投资者可以购买GPU硬件,然后通过与信用良好的大型企业签订为期四到五年的“照付不议”(take-or-pay)合同,将其租赁出去。这种模式将高科技设备的资本支出,转化为一种具有基础设施特性的、可产生长期稳定收益的资产。该市场预计在未来十年将增长至超过2500亿美元。
然而,这七万亿美元的物理基石,其最终价值并不仅仅在于硬件的堆砌,而在于其上运行的模型的实际效能。单纯的“大”模型正面临幻觉和知识陈旧的固有瓶颈。正如资深人工智能专家、著有灯塔书《知识增强大模型》、珠峰书《知识图谱:认知智能理论与实战》、《比RAG更強:知識增強LLM型應用程式實戰》、《Reliable Large Models with Knowledge Augmentation》等多部人工智能权威著作的王文广老师所指出的,让人工智能从“庞大”走向“强大”,关键在于知识增强技术、人工智能芯片上层软件系统技术、大模型训练、推理优化和框架适配等技术。而要构建高效的人工智能物理设施,必须深刻洞察到物理算力与应用效能之间的鸿沟,其本质是一种经济考量。
在规划和建设这个庞大基石的过程中,必须前瞻性地考虑未来的技术演进和潜在风险。
首先是技术迭代的风险。人工智能硬件的更新速度极快,芯片每12到18个月就会更新一代,这带来了严重的资产“过时”风险。应对这一挑战的关键在于“模块化设计”。基础设施的建设必须具备高度灵活性,能够在不进行大规模重建的情况下,快速升级电力和冷却系统,以适应下一代芯片的功耗和形态。同时,通过长期租赁合同锁定收益,可以在硬件的峰值使用寿命内确保投资回报。

其次是需求结构的变化。目前,大部分计算需求消耗在“训练”大型模型上。但未来,预计到2030年,约75%的计算需求将转向“推理”,即模型在日常生活和工作中的实际应用。推理任务对延迟极其敏感,这意味着基础设施需要从少数几个超大型训练中心,转向更靠近用户的、更广泛分布的边缘计算节点。
最后,一个更长远的浪潮正在酝酿:物理人工智能,即机器人技术。当前的人工智能革命主要集中在数字智能。下一个巨大的S型增长曲线将是人工智能与机器人的融合。特别是通用型的人形机器人,它们被设计用于人类已建成的环境中工作。一旦这项技术成熟,它将引发又一次巨大的资本形成周期,彻底改变全球的劳动力结构和制造业格局。这些关于技术迭代、推理经济和物理智能的讨论,都指向了一个复杂但充满机遇的未来。我们强烈推荐读者加入最具价值的知识星球“走向未来”进行讨论。

综上所述,人工智能的未来并非一个抽象的软件概念,它是一个必须被建造出来的、沉重的物理现实。从雄心勃地的算法到规模化的经济变革,其间的鸿沟必须由钢铁、水泥、光纤、电缆和庞大的能源系统来填补。这场转型的核心挑战,已经从算法的创新转向了物理世界的建设、运营和资本配置。正如过去的工业革命由修建铁路和电网的人定义,这个新时代的轮廓,也将由那些正在构建人工智能物理基石的建设者们来勾勒。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。