牛津大学大咖Tim Palmer最新《Nature》评论文章：AI能否可靠地预测极端天气？

气象学家

发布于 2026-03-25 18:05:33

330

文章被收录于专栏：气象学家气象学家

人工智能模型能否可靠地预测极端天气事件？

作者： Shruti Nath & Tim Palmer 来源： Nature 第651卷，2026年3月19日，第583-584页

天气预报的进步堪称二十世纪科学史上最成功的篇章之一。回溯至1970年代，当时有四场热带气旋曾导致数万甚至数十万人丧生；而在今天，这类风暴造成的死亡人数已鲜少超过数十人。

这一转折始于1970年代，全球各地的气象机构开始采用基于物理规律的数值天气预报模式。这些模式通过将全球观测数据输入建立在运动定律和热力学基础之上的方程组来模拟大气状态。预报精度的提升使得人们在风暴来袭前能够及时疏散并做好充分准备。然而，这一成熟的体系如今正面临人工智能天气模型的冲击——后者承诺将大幅提升预报速度。

与传统模式需要在数百万网格点上逐步求解复杂的物理方程不同，AI模型利用经过历史气象数据训练的算法，直接将当前天气状况映射到可能的未来状态。大部分繁重的计算工作都在训练阶段完成，因此生成一次基于AI的预报主要只需将观测数据传入层层简单的算术运算（如乘法和加法）——现代计算机可以迅速完成这些操作。结果，一套14天的全球AI天气预报可以比物理模式提前两小时生成——在组织人员疏散时，这两个小时可能是决定性的时间窗口。

这种速度优势可能会诱使预报员转而主要依赖AI指导。但这里存在一个隐患：迄今为止，科学家们尚不清楚基于AI的预测在应对罕见的极端天气事件时究竟有多可靠。基于物理的预报即使在气候变化的情况下也应保持有效性；相比之下，AI系统是基于历史数据训练的，当面对与训练数据中任何事件都截然不同的情况时，它们可能会失灵。

两难的困境

随着包括总部位于英国雷丁的欧洲中期天气预报中心在内的多家机构已经开始将AI整合到其业务预报系统中，确立AI模型的准确性和可靠性已变得愈发紧迫。在此，我们强调在气象领域采用AI所引发的担忧，并呼吁天气与气候界制定明确标准，首先从约定用于测试样本外极端事件预测的数据集开始。

全球各国的气象服务部门面临着一个两难抉择：AI预报系统运行成本更低，但目前缺乏一种公认的方法来系统评估它们与基于物理的传统模式相比表现如何。研究人员迫切需要一个基准标准来评估AI模型的能力。已有若干研究检验了AI模型在特定灾害上的表现。例如，尽管领先的AI模型在预测典型热带气旋的路径以及一定程度上预测其强度方面表现良好，但对于训练集中没有先例的风暴，其技能水平就会下降。至于温度极端事件，一些AI及混合模型虽能大致重现训练期之外发生的历史热浪和寒潮的频率与空间分布格局，但仍存在区域性偏差。然而，与领先的物理模式相比，AI系统往往倾向于低估破纪录高温、低温以及大风事件的强度和发生频率。

综合这些结果可以看出，关于AI在天气预报中表现的结论仍然高度依赖于如何定义"极端"、考虑了哪些灾害类型以及极端事件发生在哪里。这凸显了对基于共识的标准化评估方法的迫切需求。

本质上，在气象机构采用AI模型之前，这些模型在一系列灾害事件（从热浪、暴雨到重大风暴）上的预测技能必须通过一个明确的最低标准。因此，我们提出一个针对所有未来AI系统训练的框架：有意地扣留一组指定的"标志性"极端事件，专门用于测试。这一"AI重新训练排除标志性事件"（AI Retraining Without Iconic Events, AIRWIE）协议将要求气象界就哪些高影响事件构成严格的基准测试集达成共识，确保任何模型在投入公共预报业务使用前，都需经过相同的样本外极端事件评估。

社区标准

AI预报系统通常在再分析数据集上进行训练——这些是长期重建的过去天气记录。具体做法是将来自卫星、气象站、船舶和飞机的历史观测数据输入现代物理天气模式，由其填补数据空白并确保物理一致性。最终得到的是过去半个世纪完整、网格化、逐小时的大气状态重建。这50年的记录中包含了若干标志性的极端事件，例如2012年袭击纽约市的飓风桑迪（它在向美国海岸移动时异常地转向西行），以及1987年席卷英格兰南部的大风暴（后者出现了一股强烈且局地性的破坏性强风，即所谓的"刺状急流"，这一现象当时尚未被充分理解，预报员也未能预测到）。

气象学家应当开始编制一个具有全球代表性的此类极端事件数据库，并可能吸纳公众参与——人们可以通过电子邮件提名他们认为值得关注的案例。纳入的标准不应是该事件是否被准确预报，而是它是否真正具有标志性或创下纪录——无论是在降雨总量、温度、风速方面，还是具有异常的风暴路径或形态。

随后，必须从通常涵盖1979至2018年的再分析数据集中删除这些事件，之后才能将数据用于训练AI模型。事实上，我们必须删除的不仅是事件活动最剧烈当天，还包括其前后各约五天的时段。这样做的目的是确保精简后的数据集既不包含关于该事件本身的直接信息，也不包含事件前后大气状态的直接信息。之后，鼓励各AI建模中心在这一精简数据集上重新训练其系统，并尝试对已移除的极端事件进行回顾性预报。由于重新训练需要大量计算资源，这将是一次全社区协调配合的一次性努力。

评估将侧重于各模型捕捉极端事件关键物理特征的能力——如降雨总量、风强或风暴路径——并将其表现与基于物理的预报进行对比。通过AIRWIE协议积累足够大的样本量，这种方法将能够对AI模型与传统模式在预测样本外高影响天气事件方面的能力进行更严格、更客观的评估。该协议已于2025年10月在世界气象组织的一次研讨会上提出，旨在呼吁建立由社区驱动的标准，以实现对AI模型的公平测试与比较。

在一个AI有望使天气建模走向普及化的时代，建立一个包容且透明的流程来定义训练与测试数据至关重要。借鉴预报员的经验来识别他们认为具有标志性或极端性的事件——无论是局地性的还是全球性的——对于建立信任尤为关键，特别是考虑到目前对于AI的工作原理能否变得更具可解释性仍存在不确定性。

Shruti Nath 是英国牛津大学物理系大气物理与可预测性博士后研究助理。 Tim Palmer 是英国牛津大学物理系气候物理学名誉教授。

参考文献：

1. Bauer, P., Thorpe, A. & Brunet, G. Nature525, 47–55 (2015).
2. Sun, Y. Q. et al.Proc. Natl Acad. Sci. USA122, e2420914122 (2025).
3. Meng, Z., Hakim, G. J., Yang, W. & Vecchi, G. J. Preprint at arXiv https://doi.org/10.48550/arXiv.2507.03176 (2025).
4. Zhang, Z., Fischer, E., Zscheischler, J. & Engelke, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2508.15724 (2025).
5. Hersbach et al.Q. J. R. Meteorol. Soc.146, 1999–2049 (2020).

END

声明：欢迎转载、转发。气象学家公众号转载信息旨在传播交流，其内容由作者负责，不代表本号观点。文中部分图片来源于网络，如涉及内容、版权和其他问题，请联系小编处理。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-16，如有侵权请联系 cloudcommunity@tencent.com 删除

事件