打开天气AI的黑箱：GraphCast内部竟藏着可解释的物理世界

气象学家

发布于 2026-03-26 09:00:30

本文是一篇非常前沿且重要的论文。它探讨了如何“打开”像 DeepMind 的 GraphCast 这样的大型数据驱动天气模型的“黑箱”，理解其内部运作机制，并验证其学到的表征是否具有物理意义和可解释性。

核心问题与动机

背景：以 GraphCast 为代表的大型数据驱动天气模型在预测准确性上已经媲美甚至超越了传统的基于物理方程的数值天气预报模型，并且计算成本要低得多。

2. 痛点：这些模型是“黑箱”。我们不知道它们内部是如何进行计算的，也不知道它们学到的内部表征（即神经元激活模式）是否对应于真实世界中可理解的物理现象（如飓风、大气河等）。这种不透明性阻碍了科学界对它们的信任和广泛采用，尤其是在预测极端天气事件时。

3. 核心问题：

* 数据驱动模型内部是否编码了可解释的、符合物理规律的抽象概念？

* 我们能否找到一种方法来揭示并理解这些内部表征？

研究方法：借鉴大语言模型（LLM）的可解释性工具

作者没有从零开始，而是巧妙地借用了在 大语言模型（LLM）可解释性研究 中发展起来的强大工具——稀疏自编码器（Sparse Autoencoder, SAE）。

* 传统方法的局限：早期研究试图将单个神经元视为基本单元，但发现很多神经元是“多义的”（polysemantic），即一个神经元会对多种不同概念产生响应，这使得解释变得困难。

* SAE 的核心思想：SAE 认为，可解释的基本单元不是单个神经元，而是一组协同工作的神经元的特定线性组合。它试图在一个更高维（但极其稀疏）的潜在空间中，用一组“字典向量”（dictionary vectors）来重构原始的密集神经元激活向量。

* 具体操作：

捕获激活：运行 GraphCast 模型，并在其中间层（例如第8层）提取所有节点（代表地球上的网格点）的嵌入向量（即神经元激活值）。

2. 训练 SAE：使用 SAE 对这些密集的激活向量进行训练。SAE 学习一个“解码器”矩阵 `W_dec`，使得任何原始激活向量 `v_i` 都可以被近似表示为 `v_i ≈ W_dec * α_i + b`。这里的 `α_i` 是一个极度稀疏的向量（只有少数几个非零元素），每个非零元素就代表一个“特征”（feature）的激活强度。

3. 发现特征：通过分析 `W_dec` 的每一列（即每个字典向量），我们可以可视化这个“特征”在地球上是如何分布的。如果某个特征的激活模式与已知的物理现象高度吻合，那么我们就发现了一个可解释的内部表征。

主要发现

通过应用 SAE，作者在 GraphCast 的内部发现了大量令人信服的、可解释的物理特征：

时间尺度上的特征：

* 日变化特征：发现了与昼夜循环相关的特征，例如在干旱地区白天激活（可能与地表加热有关）、在海洋盆地清晨激活、以及与热带辐合带（ITCZ）降雨模式高度一致的特征。

* 季节/年际变化特征：发现了与季节循环相关的特征。最引人注目的是，发现了两个分别追踪北极和南极海冰范围的特征。这是一个重大发现，因为 GraphCast 的输入和输出数据中根本不包含海冰信息！这表明模型为了更准确地预测大气动态，自主地、动态地推断出了海冰的存在和范围，并且这种推断是可以通过无监督方法提取出来的。

2. 极端天气事件特征：

* 热带气旋（TCs）：通过一种称为“稀疏探测”（sparse probing）的技术（训练一个简单的逻辑回归模型，用单个 SAE 特征来预测 TC 的存在），他们找到了一个与热带气旋高度相关的特征（Feature 3243）。该特征在全球各大洋盆都能准确激活，并且能精确追踪单个风暴（如飓风 Ida 和台风 Hagibis）的生命周期。

* 大气河（ARs）：同样地，他们也发现了与大气河相关的特征。

3. 不良特征：

* 网格锁定特征（Grid-locked features）：他们也发现了一些与 GraphCast 内部网格结构相关的特征，这些特征的激活模式反映了模型架构本身，而非真实的物理现象。这提醒我们，模型架构可能会引入偏差，这也是可解释性研究对模型开发的反哺作用。

关键验证：因果干预与物理一致性

发现相关性还不够，作者进一步进行了因果干预实验来验证这些特征的真实性：