

论文信息 标题:Machine learning global atomic representations with Euclidean fast attention 作者:J. Thorben Frank, Stefan Chmiela, Klaus-Robert Müller, Oliver T. Unke 机构:Google DeepMind(柏林)/ 柏林工业大学 / BIFOLD / 马克斯·普朗克信息研究所 / 高丽大学 发表:Nature Machine Intelligence, 2026年3月25日 DOI:10.1038/s42256-026-01195-y 代码:github.com/thorben-frank/euclidean_fast_attention
分子动力学(Molecular Dynamics, MD)模拟是理解蛋白质折叠、材料相变、化学反应机理的核心工具。其准确性完全依赖于对原子间相互作用力的精确描述。传统第一性原理方法(如 DFT)精度高但计算代价极其昂贵,难以扩展到大体系或长时间尺度。
近年来,机器学习力场(Machine Learning Force Fields, MLFFs) 以逼近 DFT 精度、仅需其极小计算代价的特性迅速成为主流。MLFFs 已被成功应用于蛋白质动力学模拟、新材料发现等前沿任务。
然而,MLFFs 存在一个长期悬而未决的根本性缺陷:对长程相互作用的建模能力严重不足。
为了实现系统尺寸 N 下的线性计算复杂度 O(N),几乎所有主流 MLFFs 都引入了局部截断半径:两个原子之间距离超过 时,彼此视为不相互作用。
这一设计在计算效率上高度合理,但在物理真实性上代价惨重。以下几类在实际化学与生物系统中普遍存在的相互作用,在局部模型中几乎无法正确描述:
相互作用类型 | 物理本质 | 典型衰减律 | 受影响体系 |
|---|---|---|---|
静电相互作用 | 库仑力 | 离子晶体、带电生物分子 | |
电荷-偶极相互作用 | 极化诱导 | 极性溶剂、配体-受体结合 | |
色散相互作用(van der Waals) | 瞬时偶极 | 弱键有机体系、层状材料 | |
非局域电荷转移 | 量子效应 | 非解析 | 金属表面、共轭体系 |
电子离域 | 共振/芳香性 | 依赖构型 | 累积烯、卟啉、导电聚合物 |
这些作用力通常在量级上弱于局部共价相互作用,但对于体系的热力学稳定性、长时间动力学行为和响应性质却至关重要。
目前最主流的 MLFF 骨干架构是消息传递神经网络(Message Passing Neural Networks, MPNNs),如 NequIP、SchNet、PaiNN、Equiformer 等。
MPNN 将化学结构表示为图,其中原子为节点,在 轮消息传递后,理论上的"有效感受野"上界为 。这比纯局部模型更大,但存在两个关键缺陷:
论文通过几何 Weisfeiler-Leman 测试等理论工具和受控实验,系统性地证明了上述局限。
EFA 的核心思想是:将 Transformer 中强大的自注意力机制引入 Euclidean 空间数据,同时克服其 复杂度问题,并保持原子相互作用所要求的物理对称性(平移不变、旋转不变/等变)。

标准二次注意力可以通过显式计算原子对之间的距离、方向等几何特征来引入空间信息。但在线性注意力中,"键值积"需要先于查询独立计算,这使得引入依赖于原子对的几何信息变得非平凡。
作者受自然语言处理中旋转位置编码(RoPE) 的启发,提出将三维坐标 编码进特征向量 的方法:
其中 为频率系数, 为单位方向向量。
在注意力框架中,将位置 、 分别编码进查询 与键 后,其内积自然包含相对位移信息:
这一构造优雅地将相对位移 嵌入了注意力权重,且对平移天然不变。
上述内积中的指数项 仍然依赖于方向 的选取,因而对旋转不具不变性。解决方案是对所有可能的方向进行积分:
积分结果是仅依赖于距离 的 sinc 函数,从而实现 SO(3) 旋转不变性。通过在不同特征维度上使用不同频率系数 ,可以将对距离的依赖表达为多个 sinc 函数的混合,大幅增强表达能力。
数值上,该积分通过 Lebedev 求积法(球面高斯求积)实现:以 G 个离散网格点 近似球面积分,时间复杂度为 ,当 时相比 具有实质性优势。
将 ERoPE、球面积分与线性注意力三者结合,得到等变 EFA 的核心公式:
其中:
关键计算技巧:先计算"键值外积" (对所有原子求和,),再与查询 作用,全程 ,无需存储或计算 的注意力矩阵。
离散化后的实现公式为:
对于等变输入特征(),EFA 更新后的原子特征在解析形式上近似为:
其中 为向量值径向函数, 为单位方向向量。这一形式与 NequIP、TFN 等等变 MPNN 中 SO(3) 卷积的基本构件完全类似,但 EFA 实现全局范围(无截断半径)的 SO(3) 卷积,而传统 MPNN 只能在局部邻域内进行。
对于晶体材料模拟,单元胞内的 SO(3) 对称性被破坏。此时论文提供了一种替代方案:选取晶格向量而非随机单位向量作为 ,使 ERoPE 退化为一种平面波展开,与 Ewald 求和方法建立了深刻的联系,可无缝处理周期系统的长程静电相互作用。
EFA 的旋转不变/等变精度受两个参数控制:Lebedev 网格点数 和最大频率 。两者通过约束 相互关联, 定义为数值积分误差低于 (接近单精度浮点极限)时的最大参数值。
实践经验表明:长程作用通常对应低频成分,因此往往可以使用很小的 (例如 或 ),保持极高效率。
在应用于真实分子之前,论文通过一系列受控实验深入分析了 EFA 的理论性质。
实验一:区分局部邻域 以不同几何构型的局部邻域对(Pozdnyakov 等人提出的测试集)为对象,比较 EFA 和 SO(3) 卷积所需的最小球谐函数阶数 。结果表明两者具有相同的阶数需求规律,验证了 EFA 在几何表达能力上与 SO(3) 卷积等价。
实验二:k-链图同构性测试 构造两个依据几何 Weisfeiler-Leman(GWL)测试不同构的链状图 、(差异仅体现在链端节点的相对朝向上)。带局部截断的 MPNN 至少需要 层才能区分两者,与 GWL 理论预测完全吻合。而 EFA 仅需单次更新即可区分,表现与全连接图上的 MPNN 等价。

对简单的各向同性衰减势(类静电)和各向异性的电荷-偶极势进行测试:
对大小从 10 Å 到 30 Å 直径的 NaCl 类团簇系统,使用单层 MP + EFA 模型:精度随系统尺寸的增长远优于任意层数的纯 MPNN;推理时间随原子数 N 线性增长,线性拟合 ,实证验证了理论分析。

该基准测试集由带非局域效应的三类系统构成,涵盖有/无周期边界的情况,是目前公认的最具挑战性的 MLFF 基准之一。
RMSE 结果对比(meV/atom 或 meV/Å):
系统 | 指标 | 2G-BPNN | 4G-BPNN | SpookyNet | MP(本文基线) | MP+EFA(本文) |
|---|---|---|---|---|---|---|
Au₂-MgO | 能量 | 2.287 | 0.219 | 0.107 | 2.225 | 0.088 |
Au₂-MgO | 力 | 153.1 | 66.0 | 5.337 | 55.31 | 4.230 |
Na₈Cl₈⁺ | 能量 | 1.692 | 0.481 | 0.135 | 1.485 | 0.109 |
Na₈Cl₈⁺ | 力 | 57.39 | 32.78 | 1.052 | 34.38 | 1.205 |
C₁₀H₂ | 能量 | 1.619 | 1.194 | 0.364 | 0.704 | 0.254 |
C₁₀H₂ | 力 | 129.5 | 78.0 | 5.802 | 29.61 | 5.351 |
EFA 在 8 个指标中的 7 个上超越包括 SpookyNet(专门设计处理非局域效应的模型)在内的所有对比方法。
选取 (X, Y ∈ {F, Cl, Br, I})这一经典亲核取代反应。

定量结果:
定性结果(最为关键): 在以相同初始条件运行 MD 轨迹时:
这一对比生动说明:在涉及长程导向效应的化学反应场景中,局部模型的错误是定性的,不可通过参数调整弥补。
以 DES370K 基准(源自 SPICE 数据集,含 76 种二聚体系统)为测试对象,评估 EFA 对非共价长程相互作用(静电、感应、色散及其混合)的泛化能力。
将二聚体间长程作用拟合为物理动机的展开形式:
其中 涵盖了从电荷-电荷()到色散()的全部相互作用类型。
模型 | Pearson 相关系数(vs. 真实值) |
|---|---|
标准 MP | 0.56 |
MP+EFA | 0.95 |
MP+EFA 不仅数值精度更高,其系数分布与真实值分布几乎完全重叠,而标准 MP 模型的系数分布严重失真——这说明 EFA 正确学习到了长程相互作用的物理函数形式,而非仅仅拟合了某些局部特征。模型还展现出对训练集外 4 个全新二聚体的强鲁棒泛化能力。
累积烯 (k=7)是测试长程非局域效应最具代表性的有机分子之一。其能量对链两端 CH₂ 基团之间二面角 Θ 的依赖极为敏感,但这一依赖关系在空间上跨越了整个碳链骨架。

关键结论:
MD 模拟的后续分析揭示了错误能量曲面带来的灾难性后果:
在 BIGDML 数据集(以局域作用为主的材料体系)上,MP 与 MP+EFA 性能相当,证明在不需要长程效应的场景下,EFA 模块不引入额外误差,是真正意义上的即插即用增强。
ERoPE 以实数运算等价实现,避免复数计算:对于 维的特征向量,采用 个 旋转矩阵的块对角矩阵,并利用稀疏结构以逐元素乘法高效计算:
每个旋转矩阵使用独立频率系数 ,使得不同特征维度可以以不同频率感知距离,极大丰富了模型的径向表达能力。
论文采用 E3x 库实现 O(3) 不可约表示(irreps)框架。特征 按宇称 和阶数 组织,不同阶数特征之间通过 Clebsch-Gordan 系数进行张量积耦合,严格保持 O(3) 等变性。ERoPE 沿"特征轴"独立作用,宇称轴和阶数轴作为批处理维度处理。
初始化原子嵌入(按原子序数)
↓
循环 T 次 MessagePassing 层(局部 MPNN,截断半径 r_cut)
+ EFA 块(全局注意力,无截断)
→ 两者输出相加
↓
最终不变特征 → MLP → 原子能量贡献
↓
对所有原子求和 → 总能量
↓
对坐标自动微分 → 负梯度 = 原子受力MP 块采用等变连续卷积,径向滤波函数在 处平滑衰减至零,保证表示的连续性。EFA 块默认参数为:,,,(用于不变特征系统)。
方法 | 时间复杂度 | 空间复杂度 | 全局信息 | SO(3) 对称性 |
|---|---|---|---|---|
标准自注意力 | ✅ | 需额外设计 | ||
FlashAttention | ✅ | 需额外设计 | ||
线性注意力(无几何) | ✅ | ❌ | ||
局部 MPNN | ❌(局部) | ✅ | ||
EFA(本文) | ✅ | ✅ |
当 时(实践中通常满足),EFA 优于标准自注意力两个数量级,且是目前唯一在保持 SO(3) 等变性的同时实现全局感知与线性复杂度三者兼得的机制。
论文对 EFA 的局限性有充分的自我认知: