对齐结构学习代理的可能原则

CreateAMind

发布于 2026-03-11 18:30:56

200

文章被收录于专栏：CreateAMindCreateAMind

Possible Principles for Aligned Structure Learning Agents

对齐结构学习代理的可能原则

https://arxiv.org/pdf/2410.00258

摘要

本文为从自然智能的原始原理描述出发，开发可扩展对齐人工智能（AI）提供了一条路线图。简而言之，通往可扩展对齐AI的可能路径在于使人工智能代理能够学习一个良好的世界模型，该模型包含对我们偏好的良好建模。为此，主要目标是创建能够学习表征世界及其他代理世界模型的代理；这一问题属于结构学习（亦称因果表征学习或模型发现）。我们以这一目标为导向，揭示结构学习与对齐问题，并提出指导我们前进的原则，综合数学、统计学和认知科学中的各种思想。1）我们讨论了核心知识、信息几何和模型约简在结构学习中的重要作用，并建议学习一系列核心结构模块，以学习广泛的自然世界。2）我们概述了一条通过结构学习和心智理论实现对齐代理的方法。作为示例，我们数学上勾勒了阿西莫夫的机器人三定律，该定律规定代理应谨慎行事，以最小化其他代理的痛苦。我们通过提出对齐的改进方法来补充这一示例。这些观察可能指导人工智能的发展，帮助扩展现有的——或设计新的——对齐结构学习系统。

关键词：代理，世界模型，生成式，模型发现，因果表征学习，贝叶斯推理。

1 引言

本文遵循仿生学原则，探讨开发可扩展对齐人工智能代理的挑战。我们考虑了需要解决的研究问题以及指导原则，提供了一个综合数学、物理、统计学和认知科学各种思想的广泛视角。

智能的原始原理方法：我们力求涵盖并适用于所有自然主义的人工智能方法。我们采用一种称为“主动推理框架”[1–3]的智能建模的“原始原理”方法。主动推理并非与其他自然主义的智能建模方法割裂开来，而是旨在将它们纳入一个源于统计物理的广泛框架中。这遵循了悠久的思想传统，或许起源于亥姆霍兹关于感知作为无意识推理的运动[4]，在本世纪之交以预测编码的形式在神经科学中复兴[5]，并被概括为贝叶斯大脑假设[6]。主动推理在21世纪初提出，通过假设行动优化与感知和学习相同的客观目标[7, 8]，扩展了这些贝叶斯解释。这一解释被认为是一种潜在的统一大脑理论，即在特殊情况下容纳一系列先前存在且部分不重叠的大脑理论[9]。鉴于这些思想的描述能力，研究人员一直在寻求用统计物理来证明这一解释，数学上越来越严谨和复杂。这些努力催生了一个新兴的非平衡物理学领域，称为“贝叶斯力学”，它将粒子的随机描述与推断描述联系起来。这已被用来推导出我们在此呈现的主动推理框架，该框架提供了对有知觉行为的描述[10]。主动推理框架可用于建模认知科学中的大量现象，从人类选择行为[11]到精神病理学[12]，再到大脑解剖学和生理学的许多已知特征[13, 14]，包括神经元群体的活动[15, 16]（参见[1–3,17]的综述）。主动推理近年来在机器学习和机器人学中获得了越来越多的关注（参见[18–20]的综述）。

学习世界模型：解锁基于模型的人工智能方法在大规模应用中的实用性，关键挑战在于使代理能够学习其世界模型，因为目前解决这一问题的方法仍然有限（但参见[21–23]）。请注意，这个问题也存在于主动推理、基于模型的强化学习和控制[24]中。这个结构学习问题1是本文的焦点：我们探讨人工智能系统和代理如何可行地学习其数据生成过程的模型。我们详细研究这一问题，并讨论核心知识、信息几何和模型约简的重要作用，并建议核心结构模块，以实现对广泛自然世界的学习。

通过结构学习实现对齐：然后，我们从结构学习和主动推理的角度考虑人工智能对齐问题。在主动推理中，代理的世界模型为其提供了偏好，因为行为只是最大化模型的证据。我们提出的论点是，通过允许代理推断其他代理的世界模型（其中包含其偏好），可以在人工智能对齐方面取得进展。然后，行动被要求满足他人的偏好，这对应于通过采取他人的视角来与他人对齐。这是一种超越制定行为保障措施的主观对齐概念，而行为保障措施构成了许多当前对齐方法的核心。作为这些思想的一个示例应用，我们在这个框架中数学上勾勒了阿西莫夫的机器人三定律，该定律规定代理应谨慎行事，以最小化其他代理的痛苦。

我们的贡献：本文为开发可扩展、对齐的人工智能代理提供了一条研究路线图，确定了关键的研究问题和有希望的研究方向。该路线图包含三个核心要素：1）致力于从生物智能汲取灵感的自然主义人工智能方法。2）一个使代理能够自主学习世界模型的综合框架，原则上实现了可扩展智能。这综合了目前分散领域（包括机器学习、认知科学、数学和统计学）的见解。3）对这些进步如何应对人工智能对齐挑战的概念性探索。

总结而言，本文提供了一个综合视角和后续数值研究的参考点。

框架的意义：虽然我们呈现的路线图是高层次和概念性的，但最近的工作展示了关键组成部分的实际可行性。例如，AXIOM [21] 实现了此处概述的结构学习原则（带有以对象为中心的主动推理模型），在10,000次交互步骤内掌握了街机游戏——与深度强化学习方法相比，实现了显著的样本、计算和参数效率。类似的研究方向，基于理论的强化学习[28, 29] 表明，维持对编码因果结构和参数的概率程序信念的代理可以实现人类水平的学习效率。这些实现说明了该路线图的核心方面，并表明自然主义、基于结构学习的方法可以在解释性和性能方面超过传统方法。我们的工作进一步表明，这些以及相关的进展可能直接适用于应对人工智能对齐挑战。

论文结构：我们在第2节简要介绍了自然智能的“原始原理”框架。然后，我们在第3节讨论静态数据集的数据生成过程模型学习（即结构学习和因果表征学习），在第4节讨论代理情境下的模型学习。接着，我们在第5节转向人工智能安全和对齐问题，作为这些思想的一个潜在应用。最后，我们在第6节讨论这种自然主义方法在更广泛的认知科学和人工智能领域中的位置。

2 自然智能的原始原理方法 我们希望人工智能的方法能够建立在自然智能的基础之上。在接下来的内容中，我们概述了一种智能系统的“原始原理”描述，该描述与自然科学，特别是对自然世界的物理描述相一致。具体而言，我们提出了一种描述与环境积极互动的系统的动力学的物理理论。

符号表示：在接下来的内容中，除非另有说明，我们将用小写字母表示有限时间区间上的随机过程，并通过时间索引这些随机过程，以表示其在某个时间点（或多个时间点）的（随机）取值。我们用 P 表示其概率分布。

设定：在最少假设的前提下，我们总结了具有内部状态的粒子（如有机体或代理）的各种组成部分（参见图1的说明）：考虑世界 x，它由研究对象（如粒子、有机体或代理）及其环境组成。这种划分暗示了一个边界，通过该边界，粒子内部的状态与外部状态相互作用。因此，世界过程 x 可划分为代理外部的过程 η、代理内部的过程 μ 以及边界过程 b。显式地：x = (η, b, μ)。我们进一步将边界过程 b 分解为两个过程；分别指那些不受外部过程和内部过程直接影响或导致的过程（这些过程可能为空）：我们分别称其为主动过程 a 和感觉过程 o，即 b = (o, a)。在这里，我们可以将世界的分布解释为外部过程如何影响代理的生成模型，即贝叶斯规则：

最大化模型证据：这里的一个同义反复是，最有可能的内部动态和主动动态将最大化生成世界模型（1）的证据。确切地说，给定感觉轨迹的情况下，主动过程和内部过程的轨迹越可能，模型证据就越高——反之亦然。这是一个简单的观察，支撑着接下来的所有内容：我们可以将事物的内部动态和主动动态表述为优化一个单一目标：世界生成模型的证据。在接下来的内容中，我们将回顾自然系统中这些自我证明动态的表征。以下表征假设世界动态具有某种函数形式，通常（但不仅限于）是随机微分方程，因为这些构成了物理学的很大一部分基础，例如统计物理学和经典物理学，而我们旨在提供一种与物理学其余部分一致的自然智能描述。

主动推理：在最少假设下，内部状态（或路径）可以被表述为在给定边界状态（或路径）的情况下，一致地推断外部状态（或路径），这与统计学和机器学习中的变分推断一致[30, 31]。例如，内部状态参数化外部状态的概率分布

，使得内部状态和主动状态下降（记为 ↘）变分自由能 F（通常在统计物理学中表示），即证据下界（ELBO）的负值，在统计学和机器学习中被使用：

这种描述被称为主动推理，因为优化自由能或证据下界对应于变分贝叶斯推理，而主动推理通过将行动纳入相同的推断目标中，扩展了这一理论。参见[10]（分别参见[32]）关于状态（分别参见路径）推断情况下（2）的推导，以及[33–36]以获取更多细节。

对变分推断的另一种视角是内部路径和主动路径上的分布。在经典力学尺度上，内部路径和主动路径遵循玻尔兹曼-吉布斯分布：

其中势函数 G 通过与轨迹上的变分自由能类比而被称为“预期自由能”，且 d ≜ dt ⊆ {o≤t, a≤t, μ≤t} 是一个可能非空的数据历史记录。参见[10,32,37,38]以获取(3)的推导。有趣的是，(3)可以与统计学、认知科学和工程学中占主导地位的若干信息论智能决策表述相关联：参见[37,39,40]。

结论：(2)-(3)是同一枚硬币的两个方面，即它们是同一底层动力学的互补表征。换句话说，自然系统可以被描述为优化世界生成模型的证据，最小化自由能，并追求最小化预期自由能的轨迹。

2.1 主动推理框架 该理论为建模和模拟事物（如认知和行为）的内部动态和主动动态提供了一个规范性框架，称为主动推理[1–3, 41]。在主动推理中，内部动态和主动动态被认为是为了最大化一个生成“世界”模型 P 的证据，该模型指定了外部、感觉和主动过程之间的相互作用。这通过数值最小化变分自由能（2）和/或预期自由能（3）来实现。换句话说，内部动态和主动动态仅取决于生成模型。因此，模拟对齐智能行为的问题在于选择正确的生成模型类型。这是一个开放性问题，也是本文的重点。

我们概述了主动推理的两个特征，这些特征将在后面相关，并将其与其他行为方法联系起来：

模型证据指导行为：在主动推理中，行为的目标是最大化世界生成模型的证据。这意味着代理的世界生成模型从其视角描述了事物应该如何行为，而行为只是满足这些偏好。例如，如果我们考虑主动和内部轨迹的成本函数，即预期自由能，它分解为风险和模糊性，其中风险是预测和偏好之间的KL散度，是一种预测误差，代理力求最小化：

偏好对数据的依赖意味着这些偏好可以随着时间推移被推断——即被学习——[38,42]。这种风险和模糊性的分解对人工智能安全具有技术影响，我们将在第5节中展开讨论。在主动推理中，没有原生的奖励或效用函数，但如果我们把对数概率解释为奖励函数[43,44]，预期自由能可以与强化学习联系起来。在这种理解下，预期自由能是预期效用加上预期信息增益的一个保守界[39]。

在代理大脑周围划定边界。主动推理的另一个特征是，代理的身体通常被建模为外部过程的一部分。也就是说，当建模像我们这样的智能代理时，内部和外部之间的边界通常围绕代理的大脑划定，而不是围绕其身体划定。例如，在主动推理中模拟手臂运动时，手臂的位置将属于外部过程，感觉过程将是大脑关于手臂位置的感觉，而动作则是大脑影响这些位置的方式[11]。这与大多数强化学习方案[45]形成对比。

3 贝叶斯结构学习 结构学习，在此处与因果表征学习同义，是学习数据生成过程中因果机制的问题[25, 27]。这是因果关系、认知科学和人工智能中的一个基本问题：事实上，认知发展可以被视为一个结构学习过程[46, 47]，并且结构学习可能是通向类人人工智能的一种方式，即从儿童的思维出发，逐步将其发展为成人思维，正如图灵已经论证过的那样[48]。

3.1 问题 数据生成过程是一个未知的（因果）贝叶斯网络 η，包含未知的潜在变量和因果关系。原因在于其根本性：贝叶斯网络是一种自然的数学形式化方法，用于解释随机变量及其因果关系[49]：所有数据生成过程都可以表示为贝叶斯网络（或更一般地，概率图模型），当它们被表示为贝叶斯网络时，其因果机制变得透明。

一个贝叶斯网络或图模型 η（此后称为模型）包含三个组成部分[49]：1）因果网络 m，由潜在表示（节点）及其因果关系（有向边）组成；2）因果映射的参数 θ（假设这些映射具有某种函数形式）；3）潜在状态 s（即表示的状态）。

我们将在下文论证，该问题在于找到一个生成模型，使其在对潜在贝叶斯网络的状态、参数和结构进行边缘化后，最大化数据的边际似然。在本节中，我们考虑一个静态数据集 d（即离线学习）；我们将在第 4.3.1 节重新引入动态性。

3.1.1 最大化边际似然…… 我们希望获得一个生成模型 P(d, η)，使其最大化数据的模型证据 P(d)（也称为边际似然）。这在形式上为数据提供了一个最小长度的描述[50, 51]。对数证据分解为准确性减去复杂性：

其中，准确性量化了后验信念与数据拟合的程度，而复杂性量化了后验相对于先验的偏离程度。最大化准确性意味着最大似然推断，而最小化复杂性则施加了一个受约束的最大熵（技术上是最小相对熵）来规范后验分布。复杂性也可以被视为推理计算成本的代理，并通过兰道尔原理（Landauer’s principle），关联到能量成本[52]。简而言之，针对某些数据优化边际似然，会产生在准确性上最大化但复杂性最小的模型，从而实现一种奥卡姆剃刀的形式。

3.1.2 ……通过变分界由于边际似然无法精确计算，我们优化一个变分界：变分自由能 F 或证据下界。具体而言，这涉及对潜在贝叶斯网络 η 进行近似贝叶斯推断，通过优化网络结构 m、参数 θ 和状态 s 的近似后验分布 Q(η)；参见图 2。从 (5)：

备注 3.1（关于结构不确定性的编码）。将最大化证据（6）的问题与寻找具有最高边际似然的结构的问题进行比较：即 arg maxm P (d | m)。后者可以被视为对结构进行最大后验推断（MAP）——即在（7）中 Q(m) 是一个点质量——在结构上的均匀先验 P (m)。这也对应于在给定数据的情况下最大化结构的似然（即最大似然）。然而，我们对结构的先验知识通常不是均匀的，使得先验 P (m) 是非均匀的。此外，在有限数据甚至无限数据的情况下，可能存在多个具有相同似然的结构（即不可识别性[26,53]），这意味着只考虑单一结构容易导致过拟合。为了避免这种情况，最好考虑一个更丰富的近似后验分布族，这些分布族在（7）中编码了关于结构的不确定性。

通过优化变分界（7）来最大化贝叶斯网络的边际似然，在大规模上是一个非常困难的问题[54, 55]。其中一个主要的内在困难在于，可能的因果网络数量随着潜在变量数量的增加而超指数增长[56]，因此，先验上可能解释任何给定数据集的模型空间是巨大的。在接下来的内容中，我们将讨论如何针对先验和近似后验优化变分界，以期产生更具可扩展性的方法。

3.2 先验：模型约简

先验 P (η) 应代表对外部世界的先验知识状态，并且在没有直接支持的情况下，不应先验地承诺某些假设。例如，通常认为先验应该是与先验知识一致的最大熵分布，当这种知识以该分布上的约束形式表达时[57]。

贝叶斯模型约简[1, 58, 59] 是一种非常有效的计算工具，用于在接收一些数据后选择更好的先验。其思想是拥有一组索引于某个集合 λ ∈ Λ 的先验分布 Pλ(η) ≜ P (η | λ)。然后，模型证据（和后验）即使在似然固定的情况下，也会依赖于 λ。

从技术上讲，实现（9）是在给定数据的情况下对参数 λ 的最大似然推断。为了避免过度拟合数据，在获取足够数量的数据后才使用 BMR 才是重要的。有关 BMR 的实用总结，请参见附录 A。

3.3 先验：信息几何 模型空间具有一些结构——直观上，这是一种几何结构——并且这种结构应在先验的选择以及当前的变分推断问题中予以考虑。

关于先验，如果两个模型表达了完全相同的信息，它们应被赋予相同的先验概率；如果它们表达了相似的信息量，它们也应被赋予相似的先验概率——参见图 3 的说明。从数学上看，模型空间上似乎应该存在一种信息几何（即一种距离的概念），它表达了两个模型在信息内容上的差异程度，并且先验应在相关的拓扑中是连续的（即把相似的模型映射到相似的概率上）。

信息几何由一种距离或散度[60, 61]诱导；那么，模型空间上的自然信息距离或散度是什么？以及在实践中可行地实现这种理想的方法可能有哪些？这些问题的难点在于，模型空间似乎是一个分层空间，即不同层的不相交并集，其中每一层都是同一底层空间上的概率分布空间；也就是说，所有具有相同联合状态和参数空间的模型集合。数学上，每一层定义了一个具有明确定义信息几何的统计流形[60]，但这种几何似乎无法扩展到测量不同层之间或属于不同层的元素之间的距离。这是因为，当将通常的信息距离概念应用于两个在联合状态和参数空间上不同的贝叶斯网络时，会得到无穷大。总之，经典的信息几何理论并未解决这个问题。为模型空间赋予一种在实践中可实现的有意义的信息距离，对于结构学习将非常有帮助：它能为先验提供局部一致性约束，并提供自然梯度[62]，在变分推断期间提供局部最优更新。

展望未来，我们应该退一步，考虑在具有信息几何的模型空间上的贝叶斯推断问题，使得包含完全相同信息的模型被识别，并且我们推断模型的等价类，直到信息不变性。例如，使两个模型等价的对称性数量随着考虑的潜在变量数量的增加而急剧增加。这些信息不变性通常未被当前方法考虑在内，这意味着它们所面临的模型空间远大于实际需要。通过这些（以及其他）不变性进行商化，应能大大降低问题的复杂性，并显著提高模型证据。此外，对等价类指定先验具有优势。考虑一个模型等价类的先验概率等于该类中所有元素的先验概率之和。当为单个模型而非等价类指定先验概率时，我们可能会产生意外的重复计数效应；导致具有大量元素的模型等价类（例如，由大量潜在变量的模型组成）具有更高的先验概率。在实践中解决这个问题似乎对扩展贝叶斯结构学习至关重要。

3.4 后验：结构上的近似推断

仍然需要针对近似后验 Q(m) 优化变分界（7）：即变分推断。我们专注于如何通过优化 Q(m) 来变分地推断结构，以匹配（7）中的 P(m | d)。这是因为在我们将要讨论的情况下[63–65]，后验分布 P(m | d) 是一个分类分布。这意味着近似后验 Q(m) 也必须是分类的。我们总结了基于近似后验参数化的结构推断的代表性方法（参见图 4 以作说明）：

粒子近似后验 Q(m | n, λi, mi) = ∑ni=1 λiδmi(m)：这是变分推断方法使用（通常较小）数量 n ≥ 1 的结构 mi，这些结构被优化以捕捉后验分布的模式，并相应地优化其各自的后验概率 μi。在这种情况下，我们可以通过进行小的或大的更新来优化所考虑的结构：

局部更新：
- (a) 马尔可夫链蒙特卡洛 (MCMC) 方法在结构空间上运行一个随机过程以采样真实后验。样本通过过程根据某种随机规则（例如，以某种概率向贝叶斯网络中添加节点）顺序生成。该过程通过一些一致性程序（如 Metropolis-Hastings [66,67]）确保收敛到目标分布，并可以通过各种方式优化以提高收敛速度[68–70]。
- (b) 受约束的连续优化方法将结构空间嵌入到一个更大的连续空间中，从而通过允许使用成熟的连续粒子优化工具（例如[74]）来细化离散空间变分推断的复杂性。
全局更新：
- (a) 离散粒子变分推断是在结构通过共轭自由能下降更新的离散空间上的变分推断程序[75]。
- (b) 贝叶斯优化观察到结构推断的自由能是一个昂贵的评估，并通过贝叶斯优化对每个粒子进行全局更新[76]。这有时被称为元建模。最简单的方案是为每个结构编码一个先验（即，每个给定结构的自由能最小值）。然后，我们可以使用获取函数（例如预期自由能）来选择要评估的新结构，并且一旦我们承诺某个结构，我们就可以通过跟随自由能梯度来推断其参数和状态。关键地，当我们评估多个结构时，我们可以学习结构之间的协方差，这将为我们提供关于结构之间信息几何的经验见解，而得到的协方差可以作为更高效的贝叶斯优化的先验，因为它通过探索和利用（即，非线性估计中的无意识过滤）将自由能景观与 n 个臂（狄拉克粒子）进行平移。

完全分类的近似后验 Q(m | λ) = Cat(m | λ)：这是分布被参数化为一个完全分类分布的地方，因此我们可以对潜在的大量结构进行信念，其数量与先验中考虑的结构数量一样多。为此，有两种主要方法：

(a) 摊销推断：训练一个神经网络基于数据预测变分参数 μ[77]。
(b) 生成流网络 (GFlowNets)：是一种用于在离散组合空间上进行采样-based 近似推断的通用工具，例如模型空间[78–80]。技术上，这是一个状态-动作策略，其状态是结构。例如，动作是向模型中添加或移除节点。该策略隐式地编码了近似后验：近似后验 Q(m) 是其终端状态的分布，因此我们可以通过运行该策略从后验中进行采样。GFlowNets 被训练（隐式地）使得变分后验最小化变分自由能[81]。

这些方法具有不同的特性和权衡。例如，表达完整分类分布的方法对贝叶斯推断问题提供了更准确的解决方案，但它们的训练可能更慢。一个重要的缺点是为结构不确定性提供准确的账户，通过在目标分布 P(m | d) 中找到多个模式（参见备注 3.1）；MCMC 方法在这方面臭名昭著地受限，而 GFlowNets 和贝叶斯优化可能在这方面表现更好。与其他方法相比，完全分类和受约束的连续优化方法处理一个纯粹的连续优化问题，这通过提供梯度来促进变分推断，但这也使推断容易陷入局部极小值（其他方法也不例外）。未来的工作，我们希望，将全面量化这些方法的特性和权衡。对于结构学习代理，一个重要的缺点是能够在实时执行快速推断。

从这种分类中可以引出许多问题和推测，我们希望未来的工作能够解决这些问题：这些方案中，是否有任何方案在生物学上是合理的？以及哪种方案最能解释人脑中的结构学习？这些方案如何通过引入信息几何考虑来使其更快（通过使用自然梯度）和更具可扩展性（通过考虑信息不变性）？从时间序列数据中在线推断的能力（真实代理的一个特征）是否是粒子近似后验的特征？关于前两个问题，我们注意到大脑在同一时间只能在短期记忆中存储并关注几个对象[82, 83]。这是否可能是大脑只能考虑关于世界的少数竞争性因果假设的间接证据，并因此隐式地编码了一个只有少数粒子的粒子近似后验？

4 结构学习代理

我们现在转向讨论学习世界因果结构的代理。代理设置如图5（左侧面板）所示：代理与外部过程进行动态交换，其中当前外部状态 ηt 产生一个观察值 ot，然后代理采取一个动作 at，该动作会影响外部过程等；并且感知-动作循环不断重复。与第3节相比，代理可以访问一个不断更新的（干预性）数据流 t → d(t) ≜ d，该数据流由过去的感知和动作 d ⊆ {o≤t, a≤t} 组成，在每个周期中持续更新。

4.1 基于模型的规划和多尺度推断

遵循第2节，我们提议通过主动推理的视角来研究这个问题。实际上，这意味着承诺进行基于模型的规划和多尺度推断。

基于模型的规划：代理拥有一个关于潜在状态、参数和因果结构的世界生成模型（我们稍后会看到例子）。它使用这个模型进行规划，通过优化一个结合了探索性和利用性驱动力的目标，例如预期自由能（4）。

多尺度推断：贝叶斯方法行为的定义特征是从数据 d 中推断外部过程 η。这涉及近似世界（过去、现在和未来）的结构、参数和状态的后验信念，例如 P(m, θ, s | d)。这可以通过变分地更新近似后验分布 Q(m, θ, s) 以匹配传入数据来解决。正如我们在（7）中所见，这种推断可以通过推断状态 Q(s | m, θ)（即感知）然后推断参数 Q(θ | m)（即学习）再然后推断因果结构 Q(m)（即结构学习）来分层分解。此外，代理可能会参与贝叶斯模型约简以简化其世界模型。

这些推断过程可能在不同的时间尺度上运行：感知比学习更快，学习比结构学习更快，而准确的结构学习比感知和模型约简更慢。有经验证据表明大脑遵守这种时间尺度的分离：感知可能编码在神经元群体的放电率中——这些是快速过程——而学习则编码在神经连接强度的调节中（即赫布可塑性），其波动要慢得多[15, 16, 84]。难道因果结构编码在神经元群体之间的功能连接中，并且更新得甚至更慢吗？模型约简可以合理地解释为在神经元群体之间或内部修剪连接[85]，这在发育和整个生命周期中都会发生（例如，在睡眠-觉醒周期中）。在物理学中，在不同尺度上运行的过程被称为多尺度过程[86]。

为了在实践中模拟这种多尺度推断过程，人们会将优化 Q(m) 的学习率设置得远低于 Q(θ | m)，而 Q(θ | m) 的学习率又远低于 Q(s | m, θ)。为了方便，实践中通常是在每次新的小批量观测后推断状态[1]，在每次更大的观测批次后推断参数——并在更大的批次后减少模型。指定相应的批次大小对应于指定不同推断过程的相对时间尺度。在物理学中，这对应于一个多尺度过程的绝热近似[86]。请参见图5（右侧面板）中的总结。

4.2 相关工作

一个非常相关的工作方向是基于理论的强化学习[28, 29, 87]。在一篇奠基性论文[28]中，一个代理维护关于概率程序的信念，这些程序隐式地编码了世界的因果结构、参数和状态。然后，该代理通过优化预期效用加上信息增益来选择下一个动作（请注意这与（4）的相似性）。作者将这种架构部署在一系列简化的雅达利游戏中，并发现他们的代理不仅在所有游戏中达到了人类的学习效率（通过与人类参与者的数据进行比较），而且代理的学习轨迹也与人类的相对相似。这项工作证明了结合对世界结构的推断与基于模型的规划——利用探索和利用——可以实现人类水平的样本效率和性能以及相对人类的行为。

当前的主动推理方案涉及多尺度感知、学习、结构学习和模型约简[1, 2, 85, 88]。结构学习主动推理代理是一个活跃的研究领域，当前方案确实持有对多个替代结构的信念[23, 85, 89–91]。

4.3 精炼可能结构的搜索空间

构建能够可扩展地学习世界因果模型的代理是一个相对开放的挑战[25]。也许主要的困难是可能解释越来越复杂世界的结构的搜索空间的爆炸[56]。为了说明这个问题，考虑上述基于理论的强化学习工作[28]。他们的代理考虑的世界解释假设的搜索空间是能够从生成数据的计算机程序的代码中生成的程序的整个集合（在一定长度以内）。即使对于他们的代理所面临的简化的雅达利环境来说，这也是一个非常大的搜索空间，这项工作的成就之一是即使如此，结构推断仍然是可行的；然而，这种方法显然在可扩展性方面受到限制：1）在更复杂的环境中，可以从生成环境的代码语法中生成的程序空间可能大到无法搜索，2）通常，建模者不知道生成过程，也无法形成包含数据生成过程的候选解释空间。我们现在通过分别考虑核心知识先验和通用生成模型来研究解决这些缺点的方法。

4.3.1 核心知识先验

核心知识代表了关于外部世界的先验知识，这种知识在代理可能出生的任何世界中都是有效的。尽可能地，这种核心知识应反映在对世界潜在模型解释的先验概率中，以减少可能解释的搜索空间。对于在自然世界中运行的代理，核心知识可能包括对物理学的直觉理解，例如“物体不能在远距离相互作用，但代理可以”等陈述[83, 92]。进化将这种核心知识刻入我们的基因组，因此人类和动物新生儿出生时就拥有丰富的关于世界的先验知识。例如，人类婴儿至少拥有七种关于物体、地点、代理、数字、几何、社会群体和其他人心理状态的丰富核心知识系统[83, 92]。这些知识在不同年龄和文化的人类中共享，有时甚至在几种动物物种中共享[83]。可以将进化学习这种先验知识的过程视为在进化时间尺度上最大化证据的过程[93]。

这种“常识”先验知识极大地提高了代理世界模型的证据。核心知识通过排除对自然世界过于具体的假设来避免损害模型准确性，并通过限制世界解释的搜索空间来大幅降低模型复杂性。这种知识极大地促进了结构学习：核心知识为世界提供了有效的分类（例如，物体或代理），并赋予其独特的属性，而不是将此作为需要学习的结构。通过这种方式，核心知识极大地加速了推理和学习；例如，如果两个事物似乎在远距离相互作用，那么可以确定地推断至少一个是代理。

将人类和动物系统的这种核心知识反向工程为模型或概率程序上的先验，是一项雄心勃勃且持续的研究工作[29, 92]。基于理论的强化学习的后续工作将核心知识编码为可能解释给定（雅达利）世界的程序类型的软约束，并发现与没有这种归纳偏差相比，拥有核心知识的代理遵循了更像人类的学习轨迹[29]。在更复杂的世界上，我们假设核心知识先验对于以任何效率进行学习变得绝对必要。

因此，核心知识构成了在任何自然世界中都有效的知识，这转化为对模型先验的显著约束。作为世界解释的模型先验，然后受到与底层信息几何的一致性（即局部约束）和核心知识约束（即非局部约束）的约束。

4.3.2 通向通用、可解释、代理的生成模型一个根本性的问题是，什么样的“通用”一组基本元素和组合规则可以产生一个模型空间，作为对世界的潜在解释，该空间同时满足[95]：

足够表达性，能够近似表达代理与环境之间任何形式的自然主义动态交互。
足够粗粒度，使得在此空间上的推理在计算上是可行的。

此外，该空间中的每个模型都应：

可解释，以便代理的理解和随之而来的行为可以从其持有的模型中轻松理解。
支持快速的动作、感知和学习。

定义 1（通用生成模型）。我们将满足要求 1-4 的模型空间称为通用模型空间。基于通用模型空间的生成模型因此适合因果解释任何类型的自然主义世界；我们将此称为通用生成模型。

在要求 1 和 2 之间已经存在张力，平衡这些要求是一个重大的困难。当我们思考一个通用的模型空间可能是什么样子时，我们首先考虑现有的文献：概率程序的空间很容易变得非常有表达性，但不清楚如何在保持其足够粗粒度以使推理保持可行的同时做到这一点。概率程序并不总是容易解释的，并且在没有特定假设的情况下，不支持高效的感知和学习，因为对状态和参数的贝叶斯推断可能需要采样。一个可能大致满足这些要求的概率程序的例子是分层的离散和连续状态部分可观测马尔可夫决策过程（POMDPs）[96, 97]。事实上，已经证明具有随时间相互作用的连续随机变量的动态模型能够执行图灵完备计算[98]。此外，值得注意的是，几乎所有在主动推理中的建模工作，跨越了近二十年，都使用了通过分层堆叠这两种类型的层构建的模型[1, 2, 17, 18]。这可能是一种偏见，但它仍然表明这个模型空间在能够重现各种行为模拟和经验数据方面非常有表达性。重要的是，这些网络支持快速的动作、感知和学习，其中关于状态和参数的推断是通过快速的变分推断程序实现的[1, 2, 41, 99, 100]，这些程序在能够重现真实神经动力学的广泛特征方面具有一定程度的生物学合理性，例如[13,15,16,101]。除非在这些层中使用神经网络来表达非线性[20]，否则每一层都提供了一个可解释的动力学模型。

4.3.3 以随机过程为表达能力

由此，我们或许可以设想一组满足要求 3 和 4 的基本结构模块，这些模块可以分层组装，以表达各种动态的代理-环境交互。在这里，我们通过描述两种可以组合以表达离散和连续状态上一大类随机过程的构建模块来推进这一思路[95]。

离散动态：马尔可夫过程是一类相当普遍的随机过程[102]。所有离散状态上的马尔可夫过程都有简单的转移动态，由线性代数给出。当这些转移也依赖于动作时，我们得到一个马尔可夫决策过程。当状态是部分可观测的，并且观测仅依赖于当前的潜在状态时，我们得到 POMDPs。我们可以向这些 POMDPs 添加辅助潜在状态[103]（即动量、加速度等的等效物），以解释系统中的记忆效应，产生半马尔可夫 POMDPs。最后，我们可以分层堆叠这些层，以表达多尺度半马尔可夫过程。总之，扩展的离散 POMDPs 分层组合了一类非常通用的模型，用于描述离散状态上的代理-环境交互。参见图 6 以图形方式表示离散 POMDPs 及其各种自由度。

连续动态：对于表达连续动态，情况稍微复杂一些。重复离散状态空间的构造似乎几乎不可能，因为连续状态空间上的马尔可夫过程由无限（而非有限）维空间中的线性算子给出[104]。一个可行的替代方案是将自己限制在一个更易于处理但仍非常有表达力的过程类别中。我们可以考虑潜在动态由随机微分方程（SDEs）给出的连续 POMDPs，这是另一类非常有表达力的随机过程。请注意，自然代理的行为以非线性动态为特征，这些动态打破了细致平衡并具有彩色噪声5 [11, 105–107]，并且在主动推理中，这些动态必须包含在模型中，因为代理的身体通常被建模为外部过程的一部分（参见第 2.1 节）[41]。幸运的是，存在一个非常有表达力的 SDEs 类别，支持非线性、彩色噪声和打破细致平衡——即许多次可微的随机微分方程[34]——对于这些潜在动态的 POMDPs 支持快速且符合生物学的行动、感知和学习更新规则[2, 34, 100, 101]。通过改变图 6 中的时间、分层、因子化和广义深度，这些连续 POMDP 单元产生了一个非常有表达力的连续状态贝叶斯网络空间。

一个重要的挑战仍然存在：在不牺牲可解释性的情况下，对连续 POMDPs 中的非线性进行参数化（例如，SDE 的流），并从数据中学习这些参数化。一种有前景的方法是使用循环切换线性动态系统（rsLDS；参见图 7）来表达非线性 SDEs；即，切换的线性 SDEs 的混合，因为可以使用非常精细的分段线性近似来恢复任意的非线性，如有必要。使用切换线性 SDEs 的优点是它们具有可解释性，并且可以实现相对可扩展的精确贝叶斯推断[108]。然而，rsLDS 架构仅限于使用欧拉方案离散化的非线性扩散过程的近似[108]，而这些过程根据定义不具有彩色噪声。展望未来，似乎适当的方法是将 rsLDS 架构扩展为表达具有彩色噪声的 SDEs，也许可以通过将其与广义坐标的方法相结合[34]。特别是，这将需要在 rsLDS 层中引入广义深度。这应该会提供一个表达连续状态动态的富有表现力且可搜索的模型类别，满足基本要求 3-4。

分层混合动态：将离散层的层次结构堆叠在连续层的层次结构之上，会产生能够表达多个抽象层次上丰富非线性和动态的混合生成模型。尽管这里没有传统的神经网络，但这些层次结构形成了一个网络，其中的层是离散和连续的 POMDPs，计算是高效的近似贝叶斯推断。这些层的层次结构可能是可解释的，因为它们代表了在不同时间尺度上运行的嵌套过程。这些分层结构与将大脑视为娱乐离散状态、低维抽象动态的观点相兼容，这些动态会调节更接近感官输入的高维连续表示[14, 110]。

4.4 结构学习代理的生成模型 现在我们已经看到了一个可能适合描述广泛世界动态结构的模型空间，我们回到代理可能用来推断这种结构的生成模型。

在最简单的情况下，环境的因果结构在时间上是恒定的。在这种情况下，最简单的世界模型将因果网络描述为需要推断的静态超参数，因此代理仅通过行动影响外部过程的状态和参数。我们在图 8 中说明了这种生成模型。

更一般地，环境中的因果关系可能会随时间演变，并且可能受代理控制，也可能不受控制。例如，包含难度逐渐增加的关卡的游戏，其中每一关的复杂性都不同——或者随着学习的进展逐渐引入更复杂概念的课程学习环境[111, 112]。环境的因果网络可能是可控的，例如，在游戏中采取特定行动会移除（例如，杀死）另一个对象或代理。为了表示这两种场景，代理需要更复杂的生成模型：在因果网络上的隐马尔可夫模型和 POMDPs，这使得代理优化关于世界（过去、现在和未来）因果网络的信念，这些信念可能受行动过程的条件约束（即在规划期间（4））。请参见图 9 中的说明。

4.5 展望未来

通向通用、可解释、代理的模型类别：我们描述了一个模型类别，该类别近似于离散和连续状态上的一大类随机过程，并且可以作为代理-环境交互的通用模型类别。这个模型类别非常有表达力，同时又足够稀疏，因此可以合理地进行搜索[90]。（这是因为因果网络在很大程度上是由潜在表示决定的，因此避免了必须考虑给定潜在表示数组的所有可能因果映射所带来的组合爆炸问题）。该类别中的每个模型都支持高效的行动和感知，并且可能是可解释的。

模型上的先验：这个模型类别是无限的，因此可以选择非参数先验[113]，或者选择一个大型有限子类上的先验。这引出了一个问题：什么样的先验支持最高效的推理，哪些先验最符合生物学原理，并且最能解释大脑功能？无论如何，模型上的先验应该受到信息几何一致性约束（即局部约束）和核心知识考虑[29]（即非局部约束）的指导。

模型上的近似推断：我们在第3.4节中概述了各种用于模型上近似推断的方法，并以一系列问题作为总结：这些方法中哪一种最适用于快速、在线运行，就像结构学习代理所要求的那样？这些方法中（如果有）哪一种在生物学上是合理的，并且最有可能模拟人类大脑中的结构学习？粒子近似后验是否更具生物学合理性？

精炼模型类别：尽管这是一个有希望的步骤，但我们讨论的模型类别可能不足以满足许多目的，未来的工作应该测试其局限性，积极寻求使其更具表现力，同时保持其足够粗粒度以实现高效的结构推断。一个有趣且额外的约束是为这些分层结构施加无标度特性，这可以通过诉诸重整化群和仿生学考虑来加以激励[91]。由此产生的（缩减后的）结构类别仍然足够有表现力，可以建模来自原始像素和声音文件的视频，并从像素数据中进行规划[91]。核心知识应进一步有助于精炼模型构建模块。例如，注意到代理可以在远距离相互作用，而物体不能，因此外部世界中的两个物体比两个代理导致更多的因果独立性；以这种方式形式化物体和代理将使我们能够考虑伴随独特因果独立性的有生命与无生命的潜在因素，而这些因素不必每次都重新学习。所有其他核心知识系统也是如此[83, 92]。

使用深度神经网络进行摊销：尽管此处描述的分层模型中没有传统的神经网络，但深度神经网络对于摊销某些关于状态、参数和结构的推断可能很重要[20]。如果我们考虑快思考和慢思考——即卡尼曼的I型和II型推理[114]——分别由摊销和迭代推断实例化，这一点尤其合适[115]。

5 AI对齐

我们现在转向讨论AI对齐，作为结构学习主动推理代理的一个潜在应用。AI对齐指的是确保人工智能系统以与人类价值观和意图一致的方式行事的挑战。随着AI系统变得越来越强大和自主，这个问题引起了越来越多的关注，因为它对人类可能产生深远的影响。AI安全，一个密切相关的话题，侧重于开发在操作上稳健、可靠和安全的AI系统。这些主题在尼克·博斯特罗姆的《超级智能》[116]和斯图尔特·罗素的《人类兼容》[117]等开创性著作中得到了广泛探讨，这些著作强调了先进AI系统的潜在风险和挑战。

在接下来的内容中，我们通过主动推理和结构学习的视角来讨论AI对齐问题，使用阿西莫夫的机器人三定律[118]作为一个简单的示例。我们的重点是提供关于AI对齐问题的新思考方式，而不是推荐一个具体的解决方案来实施。主要的概念性观点是，我们可以将对齐表述为采取符合他人偏好的行动，并且我们可以通过结构学习来推断这些偏好，这在心理学的语言中对应于实例化一种复杂的理论心理。接下来的内容必然是概念性的，因为实际的实现首先需要第4节中介绍的结构学习主动推理代理，这些代理有能力用不同的生成模型来表示其他代理——这种能力仍有待开发。

5.1 幸福、对齐和谨慎的AI

为了构建安全和对齐的AI系统，主动推理提供了三个概念性成果：

定义幸福和伤害：在主动推理中，代理的幸福通过其世界生成模型的（对数）证据来量化（在实践中是证据对数的界限），而伤害则通过其负值来量化。在时间 t：

其中 d ≜ d(t) 是代理在时间 t 享受的数据；必要地，是代理的过去和现在状态的子集（边界状态和内部状态）。请注意，以这种方式表达的幸福，在主动推理文献中相当确立[119–122]。此外，当以这种方式量化伤害时，从主动推理得出的运动方程可以重现生物群体在伤害下观察到的已知经验现象[123]，为这种定义提供了额外的（事后）有效性。

对齐：从这个角度看，与另一个实体对齐，就是在对方的世界模型下拥有高模型证据。这意味着，从对方的角度来看，符合对方的世界模型描述了事物应该如何理想地行为（回忆第 2.1 节）。例如，一个能够准确完成任务并意图帮助的人类生成模型下的AI助手，将在这个模型下拥有高模型证据。相反，一个以意外或有害方式行事的AI系统，在这个模型下会非常令人惊讶，因此是未对齐的。这种对齐的观点强调了学习和尊重嵌入在他人世界模型中的偏好和期望的重要性，这是开发安全和有益AI的一个关键挑战。

谨慎行动：在主动推理中的行动选择的预期自由能目标（4）促进了谨慎行为。预期自由能的风险分量作为一种模式寻求目标（作为反向KL散度[124]），导致代理避免其首选分布下的低概率区域。此外，代理通过探索以获取揭示外部过程的观察来减少模糊性，从而提高风险量化的准确性（即，评估）。在新颖的环境中，模糊性减少最初占主导地位，驱动探索性行为，直到代理拥有足够的信息来有效最小化风险[13]。例如，一个AI助手可能会最初询问用户关于请求的澄清问题，确保它正确理解任务并避免潜在的误解。探索与利用之间的这种平衡允许与代理学习的偏好和环境理解相一致的自适应、情境感知的决策制定。

除了这些概念性要点之外，主动推理还为构建更安全、更稳健的AI系统提供了算法进步：例如[18, 19]。

5.2 通向富有同情心的AI

我们现在将富有同情心的代理定义为不仅建模其外部世界中的对象，而且也建模其中的其他代理以及他们的心理（即内部）状态的代理。这实际上承认外部世界包括其他代理的动作、观察和内部状态，这些可以与共享环境中的所有其他外部状态一起从数据中推断出来。从技术上讲，对另一个代理的心理状态持有信念的代理能够产生同情心。用认知心理学的语言来说，富有同情心的AI具有心理理论[125]。

在实践中实现这一点是一个困难的问题，可能需要考虑如图10（左侧面板）所示的生成世界模型。原则上，富有同情心的代理可以从另一个代理推断出的观察和动作中推断出另一个代理的世界模型（例如，假设它采取最小化预期自由能——或任何其他目标——的动作，并解决逆问题）。请注意，假设对方拥有与自己相同的生成模型（“你和我一样”）极大地简化了形成对另一个代理信念的过程，因为我的自我模型就变成了我的对你模型[126]。

当另一个代理的生成模型在结构上与自己不同时，例如在AI教师或AI学习者可能需要的情况下，学习其他代理世界模型的结构就变得必要。已经研究了关于人类如何表示其他代理及其心理状态的核心知识系统，这些系统可以用于实际学习其他代理世界模型的结构[92]。推断和学习其他代理世界模型结构的过程正是（贝叶斯）结构学习的问题，并且需要将这些概念扩展到社会认知[127]和多代理交互[128]领域。这听起来可能雄心勃勃；然而，基本程序现在在计算精神病学中被常规使用，在计算精神病学中，使用贝叶斯模型选择来确定最好解释患者选择行为的生成模型。这被称为计算表型。这里提出的建议是赋予人工代理这种表型能力。

我们注意到，富有同情心的主动推理代理自然地对其他代理感到好奇和谨慎。具体来说，最小化预期自由能的动作必须解决关于其他代理的模糊性，同时在实现其目标方面是规避风险的（即（4））。在这些要求下，一个首选的行动方案可能是寻求与其他代理沟通，以解决关于他们的状态、世界模型、幸福和未来计划等方面的不确定性等——参见图10（右侧面板）。

对于对齐至关重要的是，一个形成对其他代理世界模型信念的富有同情心的AI，然后就能够推断出其他代理的幸福水平或伤害（10）。当然，对另一个代理幸福的估计将取决于代理对其的模型，而这个模型（例如，其表示的粗粒化）需要仔细优化。幸运的是，这种优化正是贝叶斯结构学习所基于的模型证据（6）的优化，即在可用数据的关系中找到对另一个代理最准确且最简单的表示。

然而，至关重要的是认识到，同情心本身并不能保证仁慈或安全。竞争性甚至敌对的代理可能出于工具性原因从复杂的其他代理模型中获益。特别是，他们可能使用这些模型来操纵或欺骗他人以实现其目标[129, 130]。关键可能是规定代理的行为在符合其他代理偏好方面是仁慈的。然而，请注意，仁慈的代理仍然可能选择欺骗，因为在优化其幸福的过程中，欺骗人类可能是有益的（参见善意的谎言）。

5.3 机器人三定律

与另一个实体对齐，仅仅意味着符合对方的世界模型。但是，一个静止的岩石与我对齐，并不意味着这个岩石对我有帮助。现在我们探讨更具体的AI对齐方法，并回顾科幻小说中一个众所周知的概念：阿西莫夫的机器人三定律[118]。这些定律为我们讨论富有同情心的代理提供了一个有趣且具有启发性的思想实验。

机器人三定律是：

机器人不得伤害人类，或通过不作为允许人类受到伤害。
机器人必须服从人类给予的指令，除非这些指令与第一定律相冲突。
机器人必须保护自己的存在，只要这种保护不与第一或第二定律相冲突。

阿西莫夫（1950）《我，机器人》[118]。

虽然这些定律本身并不是AI对齐的实用解决方案，7 它们为说明我们如何在主动推理框架内形式化伦理约束提供了一个起点。

让我们看看如何利用迄今为止讨论的概念来接近第一定律的精神。最小化伤害——分别从（10）的角度最大化幸福——支持第一定律，并且可能会变得更强，可能已经包含了，例如，第二和第三定律，正如我们稍后会看到的，因此这暗示了超越在通俗意义上防止伤害的行动方案。

机器人第一定律：为了在数学上实例化第一定律，首先考虑一个富有同情心的代理，其唯一的偏好是防止另一个代理（目标代理）受到伤害。富有同情心代理的行动可以采取最小化预期自由能成本函数（4）的方式，其中我们丢弃除目标代理的伤害之外的所有外部变量：

在这里，FE 是目标代理的伤害（或负幸福）——这是在预期自由能中保留的唯一外部变量，用于指导富有同情心代理的行动。(11) 意味着富有同情心代理的唯一指令是采取行动以匹配目标代理幸福的首选分布，并最小化对其幸福的模糊性。

通过在 (11) 中设计目标代理伤害的首选分布，使其对低伤害的概率大于对高伤害的概率，可以实现第一定律的一个版本。例如，对伤害采用指数衰减的概率分布，使得零或低伤害在指数上优于高伤害，或者通过（软）阈值化目标的幸福到理想值。无论如何，(11) 中首选分布依赖于数据历史 d 这一事实意味着偏好可以通过数据驱动的方式随时间学习[38, 42]。为了适当地建模目标的伤害水平，富有同情心的代理必须建模许多其他外部变量；然而，驱动其行动的唯一指令是解决模糊性——并实现目标幸福的首选分布。

在短期内优化幸福可能与在更长时期内优化幸福非常不同，根据 (11) 对行动方案进行评分意味着定义了富有同情心代理寻求改善目标代理幸福的时间跨度。这个时间跨度是富有同情心代理对伤害的生成模型中的时间深度（参见第 4.3.3 节）。因为富有同情心的代理基于目标的世界模型进行推断，富有同情心代理对幸福的时间范围是其对目标自身时间范围的估计。这可能不是在所有情况下都是期望的行为，因为可能希望保护目标代理，即使这些事件是目标代理无法预见的，但在事件发生时，它们可能会可预测地关心（或受到伤害）。然而，当为了满足多个目标代理的偏好而采取行动时，这个问题在多代理系统中得到了缓解，因为预期的规划时间范围将成为目标范围的上确界。

多代理环境中的第一定律：在一个有 n 个目标代理的环境中，我们可以通过将 (11) 中的伤害替换为

，即目标代理的联合幸福，来为多个代理制定第一定律。因此，富有同情心的代理必须预测每个目标的幸福水平，并维护这些变量上的联合偏好分布。这种实现的一种可能方法是将每个目标的幸福视为平等且独立的，从而导致一个可分解的联合偏好分布：

，其中每个人伤害的偏好分布对所有个体都是相同的。如果我们进一步规定目标代理是环境中的所有人，那么 (11) 就成为阿西莫夫机器人第一定律的一个实例化：一种旨在防止任何人受到伤害的谨慎行动的规范。然而，我们注意到，联合分布的具体选择本身是一个复杂的伦理和社会问题，超出了本文的范围。

第二和第三定律：如果我们通过使用平坦的（或最大熵的）先验偏好将外部变量重新引入预期自由能 (11)，富有同情心代理的行动应该基本保持不变——特别是保持与第一定律一致——但关键的是，我们可以允许这些额外变量的偏好从经验中学习。由于主动推理中的偏好是通过最大化模型证据来学习的，这些额外的偏好（即激励[131, 132]）将以最有利于满足第一定律中编码的最小化他人幸福的硬性约束的方式进行学习。

第二定律：从不服从会带来伤害（从 (10) 的意义上）这一观察出发，一个机器人会学习到，为了最小化对其他人类的伤害，它应该服从他们的命令，除非这与第一定律相冲突。
第三定律：从一个机器人必须维持其存在以积极最小化他人伤害这一观察出发，一个机器人可能会学习到，只要这不会通过与第一或第二定律相冲突而造成伤害，它就应该保护自己的存在。

请注意，在这个版本的三定律中，第二和第三定律是从第一定律中衍生出来的，并且是被学习以支持第一定律的。一个重要的细微差别是，富有同情心的代理会遵循那些会使他们的目标代理变得更好的事情——即使目标代理自己并不知情——即使这些目标代理明确命令相反的事情。可能，这暗示富有同情心代理的干预能力应该受到限制，直到它们获得了足够的能力来理解什么对它们的人类目标是有益的（通过多代理环境中的心理理论）。超越以人类为中心的方法，可能更有利的是让富有同情心的代理寻求最大化其生态系统中所有其他代理的幸福。这可以通过修改第一定律 (11) 来实现，考虑所有代理的幸福，而不仅限于人类代理。

当然，我们距离能够实际实现这些定律还很遥远，除了玩具示例之外，对其进行详细研究会带来一系列挑战。然而，我们希望用更正式的语言表达这些和类似的想法，将有助于实际的研究。

5.4 超越视角转换的对齐

虽然我们主要从视角转换和心理理论的角度讨论了对齐，但重要的是要认识到，假设对其他代理有显式的模型并不是对齐所必需的。例如，我们肠道中的微生物群通常与我们自身保持一致，其细菌成分在某种程度上也可能彼此一致，然而，认为它们中的任何一个都拥有对其他细菌或其宿主的复杂心理理论似乎都不合理。

事实上，从主动推理的角度来看，对齐更根本的问题是：什么样的代理互动会导致群体或生态系统中每个成员的幸福最大化？这种状态被称为“自由能平衡”[128]，它将经典的博弈论纳什均衡概念推广到有限理性的代理。这些均衡正开始被正式研究[133]，理解这些均衡打开了设计能够将其生态系统带向自由能平衡的代理的可能性。

数值研究表明，种群可能会自然地收敛到自由能平衡状态，在这种状态下，所有代理共享相同的生成模型（和偏好），尽管可能是在进化的时间尺度上[134, 135]。在这种情况下，每个代理的目标是群体的（共享的）目标，而同情心是一种涌现的属性[126]。

显然，这些数值研究需要扩展到富有同情心的代理和学习自己偏好的代理[38, 42]。

总之，虽然富有同情心的代理可能是一种实现对齐的方式，但其他途径也是可能的。自由能平衡为在显式视角转换可能不可行或不必要的系统中提供了对齐的框架。这在多代理系统或代理认知能力差异很大的场景中可能特别有价值。未来的工作可以探索自由能平衡与其他人工智能对齐概念的关系，以及如何将其应用于实际设计对齐的人工智能系统。

5.5 相关工作

相关工作使用代理-环境交互的因果模型，但目的是分析代理的激励[131,132]。这为分析和设计具有理想激励结构的人工智能系统提供了互补的视角，并与我们关于心理理论的讨论相吻合，包括其可能的仁慈和敌对用途。我们开发的结构学习方法可能提供一种动态构建这些因果网络的方法，并超越仅仅识别各种属性（如激励[132]、意图[136]和欺骗[137]）的存在或缺失，通过量化这些现象来实现。

避免行动的意外后果的挑战，例如[138]，也与风险规避代理的可取性相呼应。惩罚那些导致显著、不可逆且可能有害变化的行为的概念，与主动推理中通过最小化预期自由能产生的风险规避行为是一致的。

我们的工作建立在心理理论的贝叶斯模型之上。经典工作表明了对他人心理状态和奖励函数的贝叶斯推断[139]，并且当另一个代理与自己拥有相同的生成模型时，同情心可以是直接的[126]。最近的工作通过效用函数推断探索了多代理合作[140]，但仅保持一个固定的代理配置库用于分类。在所有情况下，这些方法都假设已知的生成模型结构，而我们强调对生成模型未知的代理的结构学习。此外，与以往工作不同，我们强调了获取关于其他代理生成模型和偏好的信息的表征性行动（例如提问）的重要性。

6 讨论

在本文中，我们旨在为扩展自然主义对齐人工智能的研究问题提供路线图，并指明前进的道路。我们力求涵盖所有自然主义的智能方法，并在此过程中，特别致力于一种被称为主动推理的原始原理方法。该框架为结构学习和对齐的各种问题提供了一个连贯的方法。在这里，我们退一步，分别讨论每个部分所依赖的承诺：

原始原理方法：主动推理可以从两个相反的方向到达：自下而上的、归纳的和历史的方法，这是理论在不断被完善和推广以解释各种经验现象的地方[5,6,8,9]。自上而下的、演绎的方法，通过被称为贝叶斯力学的新兴物理学领域[10,33,141]，该领域将物理世界中粒子、事物和代理的基本描述与推理描述联系起来。从理论角度来看，有许多机会进一步发展这种自上而下的方法，例如：1）通过表征表现出高级认知现象的物理系统子类[32,142,143]，以及2）通过使用在随机过程理论中专门开发的工具，使这些表述在数学上严谨。

贝叶斯结构学习代理：我们采用了从主动推理中得出的关于结构学习的贝叶斯视角。即，外部世界，即数据生成过程，是一个随机过程，可以总结为一组随机变量及其因果关系。由于这些随机变量和因果关系是未知的，因此必须从数据中推断出来。然而，近似贝叶斯推断不是目的，而是优化数据生成过程的生成模型的证据的手段，从技术上讲，这对应于数据的最小长度描述——即压缩。在考虑新数据持续到达且代理对世界采取行动的代理设置时，我们假设规划是通过结合使用信息论目标的探索和利用的混合来使用世界模型完成的[144]。

AI安全和对齐：最后，最后一节大量使用了主动推理框架，利用了在主动推理中，代理的世界模型提供了代理的偏好（即期望是偏好）这一事实，因此简单地学习这个世界模型就告诉了一个人如何与另一个代理对齐。这里另一个重要的特征是选择动作的预期自由能目标，它为代理规定了谨慎行为，支持安全和对齐。

计算认知科学与AI中的收敛：总之，这种观点可以被视为基于三个支柱，它们是同一底层现象的方面：世界模型的证据最大化、结合探索和利用的基于模型的规划，以及关于外部环境的近似贝叶斯推断。这些在认知科学和AI中是常见的承诺，并且特别与几位寻求通过范式转变实现下一代系统的AI专家的观点产生共鸣[25, 145]。

7 结论

我们已经揭示了通向更可扩展对齐AI代理的原则，这些代理能够表征它们的世界，这可能指导AI研究。这些原则利用了理解智能的趋同方法，综合了数学、物理、统计学和认知科学中的思想。我们用主动推理来阐述了上述大部分叙述，这是一种描述自然智能的原始原理方法。从实践上讲，这意味着致力于最大化生成世界模型的证据、结合探索和利用的基于模型的规划，以及关于外部世界及其因果结构的近似贝叶斯推断——计算认知科学和AI中的三个常见承诺。关注这一观点的是基于此处讨论的想法构建更可扩展、更强大和更对齐系统的数值研究。

原文链接：https://arxiv.org/pdf/2410.00258

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-11-26，如有侵权请联系 cloudcommunity@tencent.com 删除

模型