分层主动推理中的动态规划 Dynamic planning in hierarchical active inference

CreateAMind

发布于 2026-03-11 18:29:55

1500

文章被收录于专栏：CreateAMindCreateAMind

Dynamic planning in hierarchical active inference

分层主动推理中的动态规划

https://arxiv.org/abs/2402.11658

本文重点在于：如何在主动推理（Active Inference）框架内，构建一个能够进行动态规划的层级化智能体模型，以解决现实世界中如工具使用等复杂、变化环境下的任务。

文章的主要贡献和重点可概括为以下几点：

提出“混合计算”新方向：文章明确指出，现有主动推理研究常将运动控制与决策制定割裂开来。本文旨在弥合这一鸿沟，探索一种层级化的混合模型（Hybrid Models），该模型结合了离散表征（用于高层次决策与规划）和连续表征（用于低层次感觉运动控制），从而实现真正的“动态规划”。
整合生物行为的关键特征：作者强调，要设计出有效的智能体，必须模拟人类大脑的三个核心能力：
- 理解可供性 (Affordances)：即理解物体能提供何种交互可能性。
- 构建深层灵活的层级结构 (Flexible Hierarchies)：模仿大脑对身体和环境的层级化组织与控制。
- 基于连续感官证据生成动态计划 (Dynamic Discretized Plan)：能在不断变化的环境中，通过想象和推断未来状态来规划多步行动。
从简单单元到复杂层级架构的设计：文章采用由简入繁的论述方式：
- 第2章：从最简单的连续时间单元出发，引入“意图”（Intention）的概念，让智能体不仅能追踪目标，还能根据意图调制自身动力学，实现多步行为。

第3章：将多个单元组合成层级结构，区分“内禀”与“外在”参考系，解决复杂的运动学问题（如手持物体行走），并探讨了层级间信息传递的机制。
第4章：引入离散接口，这是实现高级动态规划的关键。通过离散的“策略”（Policies）和“隐藏原因”，智能体可以进行在线重规划，应对意外情况，并在不同时间尺度上协调动作。最终提出了一个混合单元（Hybrid Unit），它结合了离散的意图选择和连续的状态推断，实现了贝叶斯模型约简下的动态推理。

4. 讨论与展望：在讨论部分，作者总结了当前模型的局限性（如固定结构、计算复杂度），并指出了未来极具潜力的研究方向：

如何让智能体自主学习其生成模型和策略，而非依赖预设知识。
如何利用无限狄利克雷过程等贝叶斯方法，在动态环境中实现高效的结构学习。
探索分布式决策网络的可能性，挑战传统的中心化决策假设。
最终目标是构建一个能像人类一样，通过感觉运动经验主动改造环境、并在此过程中产生真正“理解”的智能体。

总而言之，本文并非仅仅介绍一个新算法，而是为构建下一代具有类人认知与规划能力的人工智能系统，提供了一套完整的理论框架和设计蓝图，其核心在于融合层级、混合、动态三大要素，以实现主动推理框架下真正的“动态规划”。

摘要 所谓动态规划，我们指的是人脑推断并施加与认知决策相关的运动轨迹的能力。近年来兴起的一种范式——主动推理（active inference），为理解生物有机体的适应性提供了根本性洞见：生物体持续致力于最小化预测误差，从而将自身限制在与生命相容的状态之中。过去数年间，大量研究表明，人类与动物的行为均可在主动推理框架下得到解释——无论是离散的决策过程，还是连续的运动控制——进而启发了机器人学与人工智能领域的创新解决方案。然而，现有文献仍缺乏一种全面视角，以有效规划在动态变化环境中具有现实可行性的行动。以建模诸如工具使用等复杂任务为目标，我们深入探讨主动推理中的动态规划问题，并始终紧扣生物行为的两个关键方面：一是理解并利用可供性（affordances）以实现物体操控的能力；二是习得自我与环境（包括其他智能体）之间层级化的交互关系。我们从一个简单单元出发，逐步描述更为复杂的结构，比较近期提出的不同设计方案，并辅以基础实例。本研究有意区别于以神经网络与强化学习为中心的传统观点，转而指向主动推理中一个尚未充分探索的方向：层级模型中的混合表征（hybrid representations）。

关键词：主动推理动态规划混合模型工具使用

引言大脑具有三个特征，与在动态变化环境中执行规划任务（如工具使用）密切相关。

首先，大脑不仅能维持对身体状态的估计，还能维持对与自身相关的外部物理变量的估计。已有研究表明，猕猴后顶叶皮层（Posterior Parietal Cortex, PPC）通过感觉运动表征对物体进行编码，而此类表征反映了身体结构（Breveglieri, Galletti, Bosco, Gamberini, & Fattori, 2015；Romero, Pani, & Janssen, 2014）。这些表征对物体操控极为有用，因为它们高效地刻画了物体所提供的行动可能性，即所谓“可供性”（affordances）（Yamanobe et al., 2017）。例如，对一个杯子的编码可依据意图不同而不同——若意图是投掷，则采用动力性抓握（power grip）；若意图是饮水，则采用精巧性抓握（precision grip）。此外，为在动态环境中及时行动，PPC可在一连串动作过程中并行编码多个物体，即便不同子目标之间存在显著的时间延迟（Baldauf, Cui, & Andersen, 2008）。

第二个特征涉及灵活且深层的层级结构。层级性结构无处不在，不仅体现为环境中物理属性之间的因果关系，更是生物体与环境互动方式的内在属性。即便是动物最复杂的运动学结构，也遵循一种严格的层级策略，即不同肢体均从以身体为中心的参考系逐级衍生。大脑功能网络的层级模块性已被广泛认可（Hilgetag & Goulas, 2020；Meunier, 2009），体感与运动皮层中对身体图式（body schema）的表征亦是如此（Holmes & Spence, 2004），顶叶与前运动皮层中关于层级化运动序列的组织同样如此（Yokoi & Diedrichsen, 2019）。尤其值得注意的是，身体图式并非静态实体，而会随人类个体在儿童期与青春期发育过程同步变化（Assaiante, Barlaam, Cignetti, & Vaugoyeau, 2014）。令人惊讶的是，神经系统能够以某种方式将外部物体与自我关联起来——尽管这种关联未必反映身体与环境之间真实的因果关系——却最有利于在特定情境下高效行动。生理学研究表明，随着工具使用的频繁开展，猕猴大脑的顶叶与运动区会逐步调整其表征，为工具“腾出空间”，从而延长感知到的肢体长度（Iriki, Tanaka, & Iwamura, 1996；Obayashi et al., 2001）。这种适应性具有高度可塑性，可在极短时间内同化外部物体（Carlson, Alvarez, Wu, & Verstraten, 2010），并引发对身体形态的体感表征改变；此类改变甚至在工具使用结束后仍持续存在（Cardinali et al., 2009）。

第三个特征是依据连续的感官证据构建动态、离散化计划的能力。复杂任务涉及决策，而大脑已知可通过多种机制实现决策（Pezzulo, Donnarumma, Maisto, & Stoianov, 2019）。其中尤为重要的一种机制是“为深思熟虑而进行的规划”（planning for deliberation），亦称“替代性试错”（vicarious trials and errors）：主体在生成并评估多个备选方案后，才最终选定某一行动（Redish, 2016）。人类规划最具吸引力的一面在于：其具备想象能力，或曰内源性生成对未来状态的动态表征的能力——包括通向这些状态的潜在轨迹与子目标（Stoianov, Maisto, & Pezzulo, 2022；Stoianov, Pennartz, Lansink, & Pezzulo, 2018）。海马体是支持轨迹生成的关键神经结构，但规划过程是与其他脑区协同实现的（Redish, 2016）。

那么，人脑如何捕获自我与环境的层级组织与动态特性，以实现有目的的规划？一种新兴理论是预测编码（predictive coding）（Clark, 2016；Friston & Kiebel, 2009；Hohwy, 2013；Rao & Ballard, 1999）。近年来，该理论日益受到关注，并自称为皮层功能的统一性范式。依据预测编码，生命体通过构建一个内部生成模型来理解世界，该模型模拟外部生成过程中的因果关系。从关于世界的高层假设出发，一系列神经预测逐级向下传递，最终形成对感官证据的低层预测。将模型的预测与实际感觉输入进行比较，会引发另一波自下而上传递的预测误差信号。模型反复迭代调整自身结构，直至所有预测误差被最小化——即模型能准确预测接下来将发生什么。这种优化机制不同于传统深度学习：其信息传递是局部的；且向上层级传递的并非某特征的检测结果，而是模型对其预测的“惊讶程度”（即预测误差大小）。除在诸多情境下推动了认知与神经科学研究（Clark, 2013；Hohwy, 2020；Millidge, Seth, & Buckley, 2022；Shipp, 2016）外，该理论亦影响了机器学习的新方向：预测编码网络（Predictive Coding Networks, PCNs）已被证明在分类与回归任务中具有良好泛化性能（Ororbia & Kifer, 2022；Salvatori et al., 2023），相较于神经网络具备若干关键优势，同时仍能近似实现反向传播算法（Millidge, Tschantz, & Buckley, 2022；Whittington & Bogacz, 2017, 2019）。

尽管预测编码可阐明错觉与双眼竞争等视觉现象（Hohwy, Roepstorff, & Friston, 2008），但它仅解释了故事的前半部分（即感知部分）。具体而言，它并未解释为何有机体会与环境发生交互——而正是这一过程，导致前文举例中猕猴大脑在工具使用时主动“扭曲”其身体图式。沿着这一线索，第二种创新性视角被提出，旨在揭示不仅适用于皮层功能、更适用于所有生命体行为的统一第一原理。该视角称为主动推理（active inference）（Buckley, Kim, McGregor, & Seth, 2017；Friston, 2010；Friston, Daunizeau, Kilner, & Kiebel, 2010；Parr, Pezzulo, & Friston, 2021），其理论根基与预测编码相同，但进一步引入了生物行为的两个关键假设：第一，生命体并非仅对世界维持静态假设，还会构建内部动态——无论是瞬时轨迹还是未来状态——以预期不同时间尺度上事件的展开；第二，这些动态假设可通过运动实现。后一假设将“模型”转化为“智能体”（agent），引出一个看似反直觉却极具洞见的推论：感知使智能体的假设顺应环境（如预测编码所述），而行动则迫使环境顺应假设——即通过采样那些能使假设为真的观测结果。若这些假设或信念对应于由表型等所定义的期望状态，那么在行动与感知之间的循环往复，最终将使智能体得以生存。这正是所谓自由能原理（free energy principle）的核心：为维持稳态，所有生物体必须持续且主动地最小化其感官状态与基于少数生命兼容选项所形成的期望之间的差异。举一实例：若我“相信”自己手中正握持一工具，我将竭尽全力去观察该工具出现在我手中的视觉图像；在此过程中，一个由伸手与抓握组成的协调动作便自然发生。该观点迥异于神经科学中广泛确立的“刺激–反应”映射模式；已有证据表明，相较于最优控制与强化学习（Reinforcement Learning, RL），它可能更具生物学合理性（Adams, Shipp, & Friston, 2013；Brown, Friston, & Bestmann, 2011；Friston, 2011；Friston, Daunizeau, & Kiebel, 2009）。

主动推理的实现可分为两大框架，分别用于模拟人类与动物行为的两个互补方面：

运动控制（Anil Meera et al., 2022；Lanillos et al., 2021；Mannella, Maggiore, Baltieri, & Pezzulo, 2021；Maselli, Lanillos, & Pezzulo, 2022；Pezzato, Ferrari, & Corbato, 2020；Priorelli et al., 2023；Taniguchi et al., 2023）；
决策制定（Adams, Stephan, Enno, Brown, & Frith & Friston, 2013；Donnarumma, Costantini, Ambrosini, Friston, & Pezzulo, 2017；Friston, Parr, & de Vries, 2017；Kaplan & Friston, 2018；Proietti, Pezzulo, & Tessari, 2023）。

原则上，主动推理或可成为理解人脑中目标导向行为如何涌现的关键（Pezzulo et al., 2024a）。例如，用于操控的相关物体可通过运动指令与感官证据之间的闭环，逐渐被纳入“自我”身份之中——这意味着，一旦智能体开始预测自身运动的后果，其“自我”与环境之间的边界便会扩展（Lanillos, Pages, & Cheng, 2020）。此外，主动推理可能推动当前人工智能体取得关键进展，进一步发展一个前景广阔的研究方向——即“以推理实现规划”（planning as inference）（Botvinick & Toussaint, 2012；Toussaint, 2009；Toussaint & Storkey, 2006）。上述三个特征对于设计能应对现实应用（如工具使用）的主动推理智能体至关重要。但问题在于：如何将三者统合为一个整体性视角？换言之，如何在含多个物体的层级结构中实现动态规划？

为回答这一问题，本研究探索了主动推理中一个替代性方向：即朝向层级系统中的混合计算（hybrid computations in hierarchical systems）。我们系统分析了运动控制领域中已应用的多种设计方案，深入考察了物体可供性、深层层级结构，以及在连续信号中进行规划等问题。以“如何建模工具使用”为出发点，我们从一个简单单元入手，逐步构建出更丰富的模块；这些模块可按层级方式联结，并展现出有趣的高层特性。第2章中，我们以单自由度（single-DoF）智能体为对象，探究如何表征可供性，并仅在连续时间内实现多步行为；第3章中，我们分析将不同单元组合为单一网络的意涵，采用更复杂的运动学构型，并区分内在动态与外在动态；第4章中，我们阐述在连续环境中引入离散决策的优势，聚焦于混合结构，并探讨离散与连续两种表征世界之间的若干对应关系。最后，在“讨论”部分，我们深入论述离散与连续表征协同处理的益处，并就该主题的未来研究方向提出若干建议。

可供性建模 本章中，我们阐释一个基本单元在连续时间中的推理机制。随后，我们逐一介绍为实现简单任务中的多步行为而引入的修改与特性——此类任务无需深层的层级建模，亦无需在线重规划。

连续时间主动推理框架（Friston, 2008；Friston et al., 2009；Priorelli, Maggiore, et al., 2023）——通常与低层感觉运动环路相对应——利用广义滤波（generalized filtering）（Friston, Stephan, Li & Daunizeau, 2010）对自我与环境的瞬时轨迹进行建模；这些轨迹通过最小化一种称为变分自由能（variational free energy）的量推断得出，后者即机器学习中所称的证据下界（evidence lower bound, ELBO）的负值。与最优控制不同，主动推理中的运动指令源自本体感觉预测（proprioceptive predictions），而这些预测通过经典的脊髓反射弧（spinal reflex arcs）得以实现（Adams, Shipp, & Friston, 2013）。这消除了对代价函数的需求——因为逆模型直接从本体感觉（而非潜变量）状态映射至动作——并将控制问题转化为推理问题（Friston, 2011）。

在主动推理中对物体的建模，近期已在若干情境中展开：

主动物体重建（active object reconstruction）（Ferraro, Van de Maele, Mazzaglia, Verbelen, & Dhoedt, 2022；van Bergen & Lanillos, 2022；Van de Maele, Verbelen, Mazzaglia, Ferraro, & Dhoedt, 2023；Van de Maele, Verbelen, et al., 2022）：其中智能体为多个元素编码相互独立的表征，并通过动作更准确地推断其动态特性；
眼动行为模拟（Adams, Aponte, Marshall, & Friston, 2015）：其中目标信念的动态受一隐藏位置偏置；
认知可供性分析（epistemic affordance）（Donnarumma et al., 2017）：即不同物体的可供性如何随智能体信念变化而改变。

在连续时间中，此类可供性可表达为与潜在智能体构型相对应的内禀参考系（intrinsic reference frames），从而定义与物体交互的特定方式。根据智能体意图调整这些附加信念（Priorelli & Stoianov, 2023b），可使其在动态情境中高效运作——例如用眼睛追踪移动目标（Adams et al., 2015），或在运动中抓取物体（Priorelli & Stoianov, 2023a），并将其放置于目标位置（Priorelli & Stoianov, 2024c）。

2.1 简单智能体 最基本的单元如图1(a)所示。这是连续时间主动推理智能体的最简形式，我们仅保留了关键节点，从而便于以如下似然函数

和动力学函数 𝒇 描述一个速度控制的动态系统：

这个代理如何执行一个简单的到达运动？如图1(a)所示，我们可以将臂部角度和速度编码为广义隐藏状态。我们将在以后讨论本体感觉和外感受域之间的关系；目前，我们考虑一个具有臂部关节角度和手的笛卡尔位置之间一一映射的单一自由度。通过指示目标 ρ 来达到，我们可以定义以下动力学函数：

但是代理在实践中是如何移动的呢？如介绍中提到的，行动是自由能原则的另一面，通过该原则，代理采样那些符合其先验信念的观测。实际上，除了感知推理（预测编码中的典型）之外，主动推理还假设生物体通过与环境的互动来最小化自由能；这种最小化简化为一个更简单的更新，仅依赖于（本体感觉）预测误差

。由于这些预测误差是从代理的信念中产生的，这意味着每当后者偏向于某个首选状态时，运动就会自然跟随。因此，在感知和行动之间存在一个微妙的平衡——在感知中，预测误差在层次结构中上升，以使信念更接近观测——而在行动中，预测误差在较低水平上被抑制，因为观测更接近它们的预测。然而，关于如何在连续时间内实际实现主动推理，仍有一个未解决的问题。一些研究表明，直接使用外感受信息来计算运动命令可以导致更平滑的运动和解决视动冲突（Friston, Daunizeau, 等人，2010；Maselli 等人，2022；Priorelli & Stoianov，2023b），实际上一些机器人实现有效地使用了这种方法（Oliver 等人，2021；Sancaktar 等人，2020）。然而，证据似乎表明运动命令仅通过抑制本体感觉信号产生（Adams, Shipp, & Friston，2013；Friston，2011），这已经是运动所需的内在参考框架，因此导致更容易的逆动力学。出于这个原因，在接下来的内容中，我们假设运动是通过最小化相对于本体感觉预测误差的自由能来实现的：

其中

执行从本体感觉预测到运动命令 a 的逆动力学，可能由经典的脊髓反射弧实现。最后，行动也可以依赖于多个阶——速度、加速度等——允许更有效的运动和控制（Baioumy, Duckworth, Lacerda, & Hawes，2020；Bos, Meera, Benders, & Wisse，2022；Meera & Wisse，2021；Meo, Franzese, Pezzato, Spahn, & Lanillos，2023），但由于这超出了我们的范围，我们只最小化0阶。尽管如此，通过指定隐藏状态的适当动力学，仍然可以通过1阶运动——例如，保持恒定速度——来实现。

2.2 物体追踪

前一节所定义的简单智能体仅能实现内嵌于动力学函数中的固定轨迹，那么它如何追踪运动物体？这通常是通过引入主动推理中的一个关键概念——隐藏原因 v 来实现的，该变量连接不同层级，并规定动力学函数如何演化。在主动推理的运动控制文献中，它们也被用于编码待到达的目标（Adams 等, 2015；Friston, Daunizeau 等, 2010；Parr & Friston, 2018a；Pio-Lopez, Nizard, Friston, & Pezzulo, 2016），如图3(a)所示。从主动视角来看，将目标视为隐状态与感觉观测的因果变量是合理的，即“正是我想抵达的物体产生了我的运动”。此时，智能体的生成模型变为图3(b)所示形式。需注意，此处存在两个先验：一个针对隐状态，另一个针对隐藏原因，分别记为 ηₓ 和 ηᵥ。此外，动力学函数与似然函数均依赖于隐藏原因；我们进一步假设似然函数可分解，其中 oₚ 与 oᵥ 分别表示手臂与目标的观测值。为简化起见，我们假设视觉似然函数 gᵥ 是一个简单的恒等映射，直接生成目标角度。正是通过隐藏原因与观测之间的联结，智能体才得以在动态环境中运作。事实上，我们可以定义如下动力学函数：

显然，隐藏原因会受到先验预测误差、反向动力学误差和反向似然误差的影响——这与隐状态的更新类似，不同之处在于该推断作用于一个状态而非一条路径。通过反向似然误差，智能体可以在移动时正确估计目标构型，如图4的追踪模拟所示。关于动力学预测误差，它现在可以流入两个不同的通路：具体而言，梯度 ∂ₓ𝒇 和 ∂ᵥ𝒇 的作用分别是推断产生特定速度的状态与原因；它们的实际作用将在第4章中阐明。

2.3 意图调制与物体可供性

尽管上述方法能够在动态情境中运作，但它仍仅能复现一个简单场景：目标没有内在动力学，且始终扮演隐状态的“原因”角色。换句话说，它无法对更现实的任务进行建模，例如“抓取-放置”操作——在该任务中，物体起初是伸手抓握动作的原因，但随后又成为另一原因（如目标位置）的结果，从而引发放置动作；更重要的是，它无法建模一种任务：在这种任务中，不仅智能体自身的动力学需要被学习，目标的动力学也必须被学习（例如，若需在运动过程中抓取一个移动物体，智能体应推断其轨迹以预判其落点）。

因此，要在复杂环境中运作，智能体必须： (i) 为每个希望交互的实体维持完整的表征； (ii) 根据当前情境灵活分配原因与后果，以决定下一步动作——这与离散模型中的策略类似，后文将对此加以解释。

因此，我们首先将多个环境实体编码为隐状态中的潜在身体构型，即 x = [x₀, x₁, ..., xₙ]，其中 x₀ 是实际的身体构型（如前所述），N 是实体的数量（Priorelli & Stoianov, 2023b）。相应地，分解后的似然函数会为第一个分量 x₀ 生成本体感觉观测值，并为每个实体生成视觉观测值：

在这里，视觉观测被假定在笛卡尔域中，因此视觉似然函数

通过正向运动学生成潜在配置的手部位置。这个结构与之前的模型相似，只是目标现在与手一起嵌入在隐藏状态中，并且隐藏原因与观测之间没有连接。我们可以为隐藏原因和动力学函数定义一个类似的分解，使得每个实体都有一个由特定原因（例如，手臂或目标将来会在哪里）偏向的独立动力学；然而，这在需要实体之间交互的拾取和放置操作中用处有限。因此，我们用一个函数计算一个意图状态，如下所示：

这个向量与方程（8）中的吸引子具有相同的作用，但现在它指向隐藏状态的一个函数。最后，我们定义以下动力学函数：

公式(14)中的动力学函数并非像似然函数那样由分离的通路构成，而是同时影响所有环境实体——例如，它会根据目标计算出一条手臂的运动轨迹。智能体在执行伸手动作时所经历的步骤如下：(i) 第0阶状态为第1阶状态施加一条轨迹，并生成感觉预测；(ii) 第0阶状态推断其自身预测的后果，因此此时它既受到意图状态的影响，也受到观测值的影响（即被二者共同偏置）；(iii) 从这一新的偏置位置生成本体感觉预测，最终驱动动作产生。

该方法可视为Adams等人（2015）研究的一种推广：在眼动行为背景下，他们将目标与注视中心编码为隐状态，每个状态拥有自身的动力学，并被一个隐藏位置所吸引。尽管与非线性动力学函数相比存在局限性（例如，可通过排斥势能实现避障，Priorelli, Pezzulo, & Stoianov, 2023c），但结合上述特定形式及隐状态分解结构，该方法仍具有处理复杂交互的高度灵活性。此外，将隐藏原因解释为增益，在主动推理视角下依然合理：因为更高层级表征的是“朝向目标移动”的意图，而目标位置则在更低层级被推断出来。

单独来看，将隐藏原因视为吸引子增益似乎帮助不大。然而，如图5(a)所示，我们可以按以下方式组合 M 个意图：

生成模型如图5(b)所示。0阶隐藏状态的更新规则变为：

该方法实现了智能体对当前情境所预测的平均轨迹。此方法之所以有效，原因有二：第一，它允许将复合运动分解为若干更简单的子目标，这些子目标可被分别处理；例如，当智能体面临两个或多个相互冲突的先验时，这种方法有助于分析其行为（Priorelli & Stoianov, 2023b）。第二，无需规划即可实现简单的多步行为（Priorelli & Stoianov, 2024c），此时仅需调整隐藏原因即可。连续轨迹之间的转换则可通过更高层级的先验实现，例如触觉感知的信念。第三，也是最重要的一点，它允许并行维持与待操控物体相关的潜在身体构型——从而实现运动间的高效过渡——并根据物体的可供性及智能体的意图对物体进行编码（例如，用手柄抓握杯子，或用整只手抓握）。图6的模拟展示了这一特性，其中智能体执行一项包含移动物体的两步伸手任务。

层级模型

迄今为止，我们已讨论了若干种单元，它们具有两种输入——关于隐状态的先验和关于隐藏原因的先验——以及一种输出——第0阶观测值。在本章中，我们将重点探讨如何将此类单元组合成单一网络，以实现更高级、更高效的控制。为此，我们将利用第一种输入（即隐状态先验），而关于第二种输入（隐藏原因先验）的讨论则留待下一章。

在层级主动推理模型中，单元按层排列，使得某一层的输出作为其下层的输入。这种架构能够表征复杂数据，例如卷积模型或非线性时间序列（Friston, 2008）。在运动控制领域，一个（深层）目标层级整合了大脑的控制与动机通路（Pezzulo, Rigoli, & Friston, 2018）。对于机器人学而言，可设计连续时间下的层级运动学模型，其中每个单元在内禀参考系与外在参考系中编码特定的自由度（Degree of Freedom, DoF）（Priorelli, Pezzulo, & Stoianov, 2023c）。这使得实现涉及多个肢体同步协调的高级动作成为可能，例如手持玻璃杯行走。该层级结构还可推广用于不同参考系间的齐次变换，例如透视投影（Priorelli, Pezzulo, & Stoianov, 2023）。

3.1 内禀原因与外在原因

上一节所介绍的单元能够在连续时间内实现多步行为，兼顾物体可供性，并在一定程度上考虑环境的动态要素。然而，它仅能估计身体构型，而在实际应用中，我们通常需在空间域内规划运动。此外，它仅能生成与单一自由度（如手部）相关的视觉预测，而我们通常面对的是更为复杂的运动学结构（如人体），包含多个分支。正如最优控制理论所述，连续时间主动推理同样考虑三种参考系与两次逆变换：首先，外在信号（例如，编码目标的笛卡尔坐标）通过逆运动学转换为内在信号（例如，编码手部到达目标位置所需对应的关节角度构型），随后再通过逆动力学转换为实际的运动控制信号（例如，关节力矩）（Todorov, 2004）。这两种过程也被归因于人类大脑（Floegel, Kasper, Perrier, & Kell, 2023；Hinman, Chapman, & Hasselmo, 2019；Vallar et al., 1999），但最优控制与主动推理在实践中的展开方式存在本质差异。如前一章所述，在主动推理中，运动指令被本体感觉预测误差所取代，这些误差通过脊髓反射弧得以抑制（Adams, Shipp, & Friston, 2013）。因此，逆动力学变得更为简单，因为行动本身被搁置一旁，智能体只需知道从本体感觉状态到运动指令的映射关系——参见公式(7)。

但逆运动学又该如何处理？回顾我们在前一章提及的观点，即“正是我想要抵达的物体产生了我的运动”。主动推理颠覆了最优控制的思路，认为行动是由外在原因（例如，肢体位置）所产生的本体感觉后果（例如，肌肉长度的变化）所驱动的（Friston, 2011）。直观地讲，我们可以像图7(a)那样对一次外在运动进行建模，即采用以下动力学函数与似然函数：

其中，𝒙 代表手臂关节角度，𝒗 为待到达的目标位置，𝑻 是前向运动学函数，返回手部位置，𝑱 是其雅可比矩阵。

视觉似然函数 𝒈𝑣 分别通过前向运动学和恒等映射，生成对手部与目标的视觉预测。对于目标导向的行为，首先生成目标位置与手部位置之间的误差；随后，一个逆运动学模型被直接嵌入动力学函数中，例如采用雅可比转置或伪逆（Friston, Daunizeau, et al., 2010；Friston et al., 2011；Lanillos et al., 2020；Meo & Lanillos, 2021；Oliver et al., 2021；Pio-Lopez et al., 2016；Sancaktar et al., 2020）。换言之，外在参考系被反转以生成一个内禀状态，该状态随后再次转换回原始域，以便与视觉观测值进行比较。因此，前向运动学与逆运动学各执行两次：一次在动力学函数中，另一次在视觉推断的前向与反向传递过程中——即当视觉预测误差

被反向传播时：

如果预测结果未被临时存储，这将导致计算需求和内存占用增加。此外，还存在一个关于生物学合理性的争议：在动力学函数中使用感知层级的吸引子，意味着该单元“知晓”部分似然预测——而通常认为似然预测应一直传递至感觉器官（sensorium）——以及其逆映射，这些都属于更低层级的特征。最后，采用图7(a)中的模型，智能体难以轻松表达外在坐标系下所需的路径，例如实现直线或圆周运动，或同时在外在与内禀域施加约束（如手持玻璃杯行走时）。

相反，我们可以利用公式(19)中的前向与逆运动学，并遵循生成过程的自然流向，以避免重复计算，如图7(b)所示。替代性的生成模型展示于图7(c)。该模型依赖两个层级结构：顶层为一个内禀单元（编码手臂关节角度），通过前向运动学为底层的一个外在单元（编码目标的笛卡尔位置）生成预测（Priorelli, Pezzulo, & Stoianov, 2023c）：

尽管生成模型遵循最优控制的前向流动，本体感觉后果与外在原因之间的特殊关系在主动推理中仍然成立，因为运动学反演将一个高级过程视为操纵抽象（内在或外在）表示，这两者都产生低级本体感觉状态。正如Adams及其同事所指出的，“关键区别不在于从期望状态（以外在运动学框架）到内在（动态）参考框架的映射，而在于从期望状态（无论哪种框架）到运动命令的映射”（Adams, Shipp, & Friston, 2013）。话虽如此，图2中表示的两个模型之间存在显著差异，可以将其与预测编码的两种监督学习模式（Millidge, Seth, & Buckley, 2022）进行比较：一种是前向模式，将潜在状态固定到标签和数据上的观测可以生成高度精确的数字图像，而反向分类任务则更困难，因为标签和数据之间没有一一映射；相反，反向模式将潜在状态固定到数据上，并将观测固定到标签上，在分类上表现出色，但在生成图像时表现不佳。基于此，我们可以将图7(a)的模型解释为一种反向模式，可以快速生成手部在目标处的正确运动学配置，但几乎无法从本体感觉推断出手部位置，从而规划动作。相反，我们可以将图7(b)的模型解释为一种前向模式，可以高精度生成手部位置，但会发现很难推断出实际实现运动所需的运动学配置。

3.2 用于迭代变换的模块

图7(b)中的模型引入了两个层级（内禀与外在）之间的层级依赖关系，这种依赖通过连接隐状态实现。相比之下，连续时间主动推理中的典型方法是：将某一层级的隐状态与隐原因，与下一层级的隐原因（而非隐状态）相连接，如图9(a)所示。虽然这种方法允许为下层单元施加一条轨迹，但要为第0阶隐状态指定固定的设定点（setpoints）却并非易事，因为由隐原因产生的动力学预测误差必须回传至前一个时间阶次。从图7(b)可清晰看出，在设计层级模型时，隐状态之间的连接具有极高的实用价值。事实上——如图9(b)所示——它在离散模型中定义不同时间尺度的初始状态时至关重要，例如用于象形文字阅读（Friston et al., 2020）或语言交流（Friston et al., 2020）。类似连接也应用于标准的预测编码网络（PCNs）中，其中每一层的每个神经元计算上一层神经元的组合，并将其传递给激活函数（Millidge, Seth, & Buckley, 2022）——如图9(c)所示。

深度层次模型与浅层代理相比有什么优势？尽管图7(b)的结构在控制方面比图7(a)的模型提供了更先进的控制，但其用途仍然局限于解决简单任务，例如用手执行操作。虽然可以同时协调多个肢体，但这将需要复杂的动态函数，其复杂性随着关节数量和运动链的分支而增加。

关键地，浅层代理无法捕捉生成过程中固有的层次因果关系，无法预测和预期在运动过程中将发生的局部力的交换。如介绍中提到的，如果需要使用工具进行操作任务，还需要深度模型。除了正向运动学中的旋转平移外，迭代变换在计算机视觉中也至关重要——图像可能会受到缩放、剪切或投影的影响——更一般地说，每当改变坐标向量的基础时也是如此。

此时，我们可以轻松地表达每个单一关节和肢体如何演变，提供高度先进的控制，如图10(a)和10(b)的模拟所示。除了模拟肢体动态外，IE模块还可以应用于其他线性变换，例如透视投影。如图10(c)所示，这可以通过平行预测（例如，从眼睛或多个相机）估计物体的深度（Priorelli, Pezzulo, & Stoianov, 2023），这是一种主动推理过程，涉及目标固定和假设测试（Parr & Friston, 2018a）。该架构的模块化允许代理在2D投影平面中定义动态吸引子，在3D参考框架中定义眼睛的动态吸引子，或简单的辐合-调节角度。这种方法还与主动预测编码（Rao, Gklezillos, & Satthis, 2022）和递归神经程序（Fisher & Rao, 2023）有一些相似之处，后者通过递归应用参考框架变换到场景的部分来解决计算机视觉中的部分-整体层次学习问题。

3.3. 自我、物体和其他个体

在描述图7(b)时，我们忽略了一个在开始时引入的关键机制：对物体可供性（affordances）的表征。回想一下，平行编码的隐藏状态不仅包括自我，还包括其他环境实体；然而，代理的模型现在可以分层地表达生成过程。这由以下似然函数描述：

在其中，每个层次结构的IE模块都具有自我和每个实体的不同因素。对于自我，这有一个简单的解释，即它只是依次生成运动链每个部分的位置，这取决于其关节角度。关于物体，我们可以通过将视觉观测附加到特定层次的隐藏状态的第二个因素来编码其笛卡尔位置。如果生成模型对自我和物体具有相同的层次结构，那么反向传播这个第二个组件的外在预测误差最终将推断出代理相对于物体的潜在配置，就像以前一样。例如，如果物体与最后一个（即手）层次相关联，这将表示手在物体位置，而所有前一个层次将表示生成最终位置的适当中间位置和角度。换句话说，隐藏状态和似然的附加分解在这里反映了代理认为适合操纵物体的（深层）层次配置。由于每个层次都可以通过其隐藏原因表达一些动态，因此这种潜在配置的推断被引导以匹配物体的可供性和代理的意图。正如下一章将展示的那样，这允许根据情况灵活适应运动链，以及表示物体（例如工具）的层次结构。推断的信念将仅受来自物体的外感受信息的影响，而本体感觉状态将仅用于更新代理对其当前配置的信念。除了建模物体的可供性外，这种策略在多代理环境中也很有用。可以维护一个关于另一个代理的运动链的层次生成模型，该模型将通过关于其所有位置和关节角度的外感受观测来推断，从不同的以身体为中心的参考框架开始。如图11所示，用于外部物体的目标导向方法在这种情况下也反映出来：代理可以通过平行的层次路径表示第二个代理与自身的关系，表达一种特定类型的互动（例如，第二个代理的手相对于它自己的手，导致握手动作）。从生物学角度来看，这两种情况可以被解释为模拟镜像神经元的功能，即当主体执行自愿的目标导向动作或当其他主体执行该动作时触发（Rizzolatti & Craighero, 2004）。构建一个关于他人的运动链的内部模型——无论是本身还是与自我的关系——对于预测（因此理解）他们的意图至关重要。在这种观点中，神经活动之所以产生，是因为代理根据其假设和当前上下文对其运动结构进行持续预测（Friston 等人，2011；Kilner, Friston, & Frith, 2007）。在主动推理下，自我、物体和其他代理之间的关系可能通过图12的模拟更好地理解，该图显示了两个具有相互依赖的不兼容目标的代理。在这里，两个代理都能够使用潜在和实际配置的有效分解来推断不同运动链的并行表示。注意，一个人的当前信念总是在要实现的意图状态和实际配置之间；这反映了主动推理的一个基本方面，即我们的信念从未真正反映世界的状态，而是总是偏向于首选状态最终——驱动行动。一般来说，身体状态、物体或其他代理都可以在适合特定上下文的参考框架中进行操作；这与皮层柱使用以物体为中心的参考框架来编码外部元素和更抽象实体的假设一致（Hawkins, Ahmad, & Cui, 2017）。

混合单元

到目前为止所呈现的连续时间层次模型在现实世界中缺乏有效的可用性：尽管它们可以表示任何未来轨迹——这意味着具有一定的规划能力——但它们没有未来状态的显式模型，也无法在替代轨迹中进行选择。在本章中，我们将探讨如何将离散决策制定整合到连续运动控制中。在此过程中，我们重新审视第一章的基本单元，最终使用第二个输入——对隐藏原因的先验。在离散状态空间中的主动推理（Costa 等人，2020；Smith, Friston, & Whyte, 2022）——通常归因于大脑皮层，特别是前额叶区域（Parr, Rikhye, Halassa, & Friston, 2020），以及皮层纹状体回路——利用部分可观测马尔可夫决策过程（POMDPs）的结构来规划预期感觉的抽象动作。这种（主动）推理依赖于预期自由能的最小化，即代理期望在未来感知到的自由能。预期自由能可以分解为两个类似于控制理论两个经典方面的项，即探索和开发——在这里自然产生；这些分别对应于减少不确定性的项和寻找一系列动作以实现代理先验信念的目标寻求项。

此外，所谓的混合或混合模型（Friston, Parr, & de Vries, 2017; Friston, Rosch, 等人, 2017）结合了离散模型的潜力与连续信号的推断，允许在变化的环境中进行稳健的决策制定。虽然贝叶斯模型简化理论（Friston, Harrison, & Penny, 2003; Friston, Parr, & Zeidman, 2018; Friston & Penny, 2011; Rosa, Friston, & Penny, 2012）提供了两种模型之间的有效通信，但这种统一方法目前还没有得到广泛的实际应用（Friston, Parr, & de Vries, 2017; Friston, Rosch, 等人, 2017; Parr & Friston, 2018a, 2018b, 2019; Parr 等人, 2021; Tschantz, Barca, Maisto, Buckley, Seth, & Pezzulo, 2022）。一个开放的问题是如何处理高度动态的环境：混合模型通常在静态先验之间进行比较，限制代理通过固定位置实现，例如，多步到达动作。在 Priorelli 和 Stoianov（2023a）中，一个混合模型在每个时间步骤从系统动态生成代理的假设，允许将连续轨迹与离散计划联系起来。除了这些更传统的解决方案，最近还提出了许多其他混合方法。一项研究解决了在主动推理中实现真实机器人导航的问题，利用了受生物启发的SLAM方法（Çatal, Verbelen, Van de Maele, Dhoedt, & Safron, 2021）。其他研究提出了如何将主动推理与模仿学习整合到自主车辆中，使用动态贝叶斯网络（DBN）来解释专家代理与动态对象之间的交互（Nozari 等人, 2023, 2022）。一个由两个连续层次和两个离散层次组成的增强DBN被用来模拟无人机在不同时间尺度上的行为，以协助无线通信（Krayani, Alam, Marcenaro, Nallanathan, & Regazzoni, 2022; Krayani, Khan, Marcenaro, Marchese, & Regazzoni, 2023, 2024; Obite 等人, 2023）。一项机器人研究将主动推理与行为树结合，用于动态环境中的反应动作规划（Pezzato, Corbato, Bonhof, & Wisse, 2023）。最后，基于递归切换线性动态系统的混合模型允许发现连续山地车任务的非网格离散化。Collis, Singh, Kinghorn, 和 Buckley（2024）。

4.1. 通过模型简化进行动态推断

通过贝叶斯模型简化技术在离散隐藏原因和连续隐藏状态之间进行转换（反之亦然），这种技术用于将完整后验模型的复杂性限制为更简单和更具限制性（正式称为简化）的分布（Friston 等人，2018；Friston & Penny，2011）。简化意味着某些数据的似然等于完整模型的似然，唯一的区别在于先验的规范；因此，简化模型 m 的后验可以用完整模型的后验来表示：

在我们的例子中，模型简化意味着用一组离散假设来解释连续信号的无限值。图13(a)展示了一个简化版本的混合主动推断模型。我们可以将这个过程转化为通常的消息传递，其中两个领域之间的自上而下和自下而上的消息分别执行简化先验的贝叶斯模型平均（BMA）和简化感觉证据的贝叶斯模型比较（BMC）。

在传统的混合模型中，离散隐藏状态通过将特定简化先验与每个离散状态的概率加权来生成连续隐藏原因的先验；因此，简化先验代表了感觉器官真实原因的替代假设（Friston, Parr, & de Vries, 2017）。然后，隐藏原因的后验与这些简化先验进行比较，以找出其中哪一个可以是环境的最佳解释，同时考虑到在观察感觉证据之前它们的离散概率。因为代理比较的是预先固定和确定的连续替代方案，所以它无法在变化的环境中正确运行。例如，如果代理认为可以在两个位置中的一个找到物体，它将总是到达其中一个或另一个初始猜测，即使物体已经被移动到第三个位置。那么如何使用新可用的证据来更新我们的简化假设呢？通过将隐藏原因视为从分类分布生成的——如方程（31）——我们可以将隐藏状态的后验与动态函数

的输出进行比较，这些函数因此充当代理的简化先验（Priorelli & Stoianov, 2023a）。更正式地说，我们定义 M 个简化先验概率分布和一个完整先验模型：

其中 l = [l₁, ..., lₘ]。关于在拉普拉斯假设下BMC的完整推导，请参见Friston等人（2018）、Friston和Penny（2011）；关于本文所提方法的更多细节，可参见Priorelli和Stoianov（2023a）。公式(39)是公式(9)的离散对应形式，但此时自底向上的消息编码了一个恰当的离散分布，可用于推断与当前轨迹最相关的意图。

该模型的因子图——我们称之为混合单元（hybrid unit）——如图13(c)所示。若我们分别分析图13(b)中所示的三条不同通路，则能更清晰地理解其每一步连续推理过程： (i) 在前向传递过程中，该单元接收一个离散意图先验 Hᵥ，对潜在轨迹 fₘ(x) 执行贝叶斯模型平均（BMA），并为第1阶施加一个先验 η'ₓ； (ii) 在第一次反向传递过程中，该单元通过将当前轨迹与动力学函数生成的轨迹进行比较，累积出与当前轨迹最相关的意图； (iii) 在第二次反向传递过程中，该单元将动力学预测误差反向传播至第0阶，以推断与该轨迹最相关的连续状态，最终生成有偏置的观测值。

经过一段时间 T 后，该单元最终计算离散先验与累积证据之间的差异，生成一组新的意图组合，随后整个过程重新开始。

现在来看这一机制如何实现自我强化：一个决策产生某种运动，而该运动反过来又推断出下一个决策本身。从身体运动中推断目标，是决策研究中常被忽视的一个基本方面，却可能导致完全不同的行为表现。具体而言，该组件会产生一种“承诺效应”，使已做出的决策得以稳定化，避免因改变主意而在动态环境中错失有效机会（Lepora & Pezzulo, 2015; Priorelli, Stoianov, & Pezzulo, 2024a）。此外，这种动态推理具有多种用途，例如，它可用于推断智能体正在跟随多个物体中的哪一个——正如图14所示——通过为不同物体生成轨迹，并将其与感知到的轨迹进行比较（Priorelli & Stoianov, 2023a）。

另一种能产生类似结果的替代方案，是Isomura、Parr和Friston（2019）在社会交换背景下使用的模型。在这种混合解决方案中，“学生”鸟为每个“教师”同类维持若干个连续生成模型。置于这些假设中心的离散切换变量，用于推断哪只“教师”鸟生成了所感知到的鸟鸣。生成模型的学习依赖于两种互补的方法，即所有可能“教师”鸟的贝叶斯模型平均，或特定某只鸟生成歌曲的贝叶斯模型选择。

最后需指出的是，公式(33)与(38)中的动力学精度在此处具有一种有趣的解释，等价于观测精度 Πₒ。预测编码假设，每当智能体感知到某一感觉模态存在高噪声时，该生成模型的精度就会下降，因为它无法被信赖来理解世界的状态（Clark, 2016; Hohwy, 2013）。此外，自由能原理固有的行动与感知二元性告诉我们，精度的优化——被认为编码为突触增益——可能在注意力机制中扮演关键角色，该机制选择性地采样感觉数据（Feldman & Friston, 2010; Parr, Benrimoh, Vincent, & Friston, 2018）。基于这些假设，我们注意到对（简化后的）动力学精度的一种双重解释：一个较低的精度 Πₓ,ₘ 若与抓取动作相关，可能意味着它不可靠，无法解释当前情境（例如，物体距离手部太远）；此外，也可能意味着智能体并不打算依赖它来达成目标（例如，当物体超出伸手范围时试图抓取）。这一视角揭示了除前文所述隐藏原因快速推断之外的另一种机制：一种对简化精度的缓慢学习过程，使智能体能够评估——并且至关重要的是，专注于——那些适用于特定场景的意图（Priorelli & Stoianov, 2023a）。

4.2 用于动态规划的离散接口

众多研究表明，运动员的大脑后部与皮下区域激活水平更高，涉及极少或无需意识思考，从而实现不同动作间的流畅转换；相比之下，初学者的大脑则需更多前额叶计算，导致表现较低（Di Russo等, 2005；Fattapposta等, 1996；Graybiel, 2008）。从主动推理视角看，可将运动员的熟练度与图5(a)所示连续模型（对应皮下感觉运动环路）进行比较。该模型编码了一种灵活性较低但反应极快的转换机制，例如在抓取高速移动物体时（Priorelli & Stoianov, 2024c）。通常，当环境不确定性低且任务包含智能体已正确习得的固定动作序列时，此策略非常有效。然而，若智能体面临新奇或复杂的任务，需仔细思虑即将发生的未来，则必须具备在意外发生时重新规划正确动作序列的能力——此时，一个始终为隐藏原因产生先验确定行为的高层信念将无法完成任务。

通过将图5(a)中的连续隐藏原因替换为图13(c)中的离散隐藏原因，我们现在可通过一个由以下分布构成的离散模型赋予智能体规划能力——如图15所示：

总之，计算策略 π 的后验概率转化为寻找符合 G 定义的双重目标的最佳动作。在这里，离散动作不打算作为实际的运动命令，类似于方程（7），而是作为高层次表示上的抽象动作。实际上，离散模型在主动推理中的层次结构允许在分离时间尺度的情况下进行决策，其中特定层次可以生成并推断出下层的状态和路径（de Tingu, Van de Maele, Verbelen, & Dhoedt, 2024; Friston 等人, 2024; Van de Maele, Dhoedt, Verbelen, & Pezzulo, 2024）。进一步评估长时间跨度动作的后果可以提供更高级的规划，称为复杂推理（Friston, Da Costa, Hafner, Hesp, & Parr, 2021）。计算与期望自由能的动作不同于连续模型的运动控制，后者仅最小化当前状态的自由能。

除了之前的代理，现在可以同步不同连续信号的行为，基于相同的高层次策略。例如，可以实现与移动物体的拾取和放置操作——如图16所示——在到达和抓取动作之间产生平滑的过渡，分别在外在和内在领域执行（Priorelli & Stoianov, 2024c）。注意这两个动作之间如何自然地出现中间阶段，对应于复合接近运动。原则上，动力学精度

的学习可能揭示了运动技能学习是如何通过连续轨迹和离散策略之间的消息传递发生的。此外，通过这种动态规划，代理可以在离散步骤 τ 内为相同的连续周期 T 推断和实现瞬时轨迹，例如，抓取移动物体而无需等待连续重新规划步骤。第三，这种基于连续证据的环境离散表示配置允许学习，如在 Priorelli, Stoianov, 和 Pezzulo（2025）中所示，学习似然矩阵 A 涉及计算目标和身体动作之间的巧合，从而根据上下文的难度（冒险与保守）调整响应策略。此外，通过学习先验 D，一种习惯性行为向选定决策发展。同样，可以根据当前观察和动作更新矩阵 C 中编码的优先状态。

4.3 灵活的层级结构

图17展示了一个为解决工具使用任务而设计的深层混合模型（Priorelli & Stoianov, 2024a）。该模型融合了（深层）层级结构的表达能力、混合单元固有的轨迹规划优势，以及对物体可供性与其他智能体进行编码的可能性。与图15类似，IE模块与顶层的离散模型通信，但如今它们以层级方式组合，复现了智能体的运动学链。由此，产生了两种不同的目标导向策略。

考虑一个简单的伸手动作：若在手部层级施加一个吸引子，则会生成一连串外在预测误差，反向传递至前序层级，并最终找到一种合适的运动学构型，使手部位于目标上方。这对应于沿混合单元展开的“水平层级深度”，可类比于婴儿典型的“运动咿呀学语”过程（Caligiore等, 2008），即在不同层级随机生成吸引子，以识别正确的身体结构。

除了这种朴素策略之外，由于当前离散模型能够为每个IE模块（在内禀与外在域中）生成轨迹，一旦逆运动学被正确执行，便可实现更高级的行为——即为整个运动学链施加一条特定路径。这对应于具有两个（离散与连续）时间尺度的“垂直层级深度”，它引导低层推断朝某一方向进行，例如避开奇异点或摆脱由排斥吸引子产生的局部极小值。

其中

是方程（36）中轨迹先验的梯度，我们注意到前向和后向外在似然性之间以及离散模型的自上而下调节之间存在微妙的平衡。从离散模型的角度来看，离散隐藏状态为每个混合单元产生特定的隐藏原因组合；这种组合在连续域中生成复合轨迹，权衡不同的潜在轨迹，考虑到整个离散步骤 τ 的动态元素。在此之后，为每个混合单元积累证据，最终推断出可能生成与自我和环境相关的实际轨迹的最可能的离散状态。

在使用工具的任务中存在一个非平凡问题，例如，用棍子的末端去够一个球。与其他代理可能具有不同的运动学结构一样，工具可能有自己的层次结构（例如，即使是一根简单的棍子也由两个笛卡尔位置和一个角度表示）这些必须以某种方式整合到代理的生成模型中。具体来说，用工具够到物体意味着定义一个潜在的身体配置，通过一个新的虚拟层次来增强。这个新层次在生成过程和实际身体配置

的信念中并不存在。然而，如果我们考虑这两种潜在配置，代理将工具视为其手臂的延伸，因此可以灵活地修改其身体图式，如介绍中所讨论的。这可以通过将工具的两个视觉观察与手臂和虚拟层次的隐藏状态的第二路径链接来实现，如图17所示。由于IE模块的内在单元还编码了关于肢体长度的信息，代理不仅可以通过视觉观察推断其运动学结构，还可以推断工具的实际长度（Priorelli & Stoianov, 2024b）。虽然这第二路径仍然以工具和手臂之间的明确区分为标志，因为手臂层次从两个元素接收观察，但构建了第三个路径，使得球的观察仅与虚拟层次相关联。因此，这种新的潜在配置将手臂和工具视为同一运动链的一部分。这三个路径之间的相互作用（如图18所示）可能揭示了随着广泛使用工具（Iriki 等人，1996；Obayashi 等人，2001），运动皮层的重新映射如何逐渐发生，修改了自我与环境之间的边界。

讨论

尽管主动推理已在多个科学领域取得诸多进展并日益流行，但当前一个主要缺陷在于：关于运动控制与决策制定的研究迄今仍相对分离，分别使用两个高度相似却不同的框架。其结果是，学界尚未就如何实现动态规划（即如何在持续变化的环境中进行决策）达成共识；而解决复杂任务的前沿方案通常将主动推理与机器学习或最优控制的传统方法相结合。从理论角度看，少数研究曾提出一种高效优雅的方式，即将离散与连续表征的能力整合进单一生成模型（Friston, Parr, & de Vries, 2017; Friston, Rosch, et al., 2017）；然而，这种混合方法尚未成熟，导致文献中相关研究数量极少。

因此，本文试图为这一尚待探索的方向提供一个全面视角，通过比较针对复杂度递增任务的不同设计方案，旨在拉近运动控制与行为研究之间的距离。作为一个实际案例，我们描述了工具使用的建模过程（Priorelli & Stoianov, 2024a），该任务不可避免地需要同时结合离散与连续框架，并必须额外考虑物体可供性与层级关系这两个方面。在简单情境下，将目标视为某些隐状态的原因是一个合理的假设，可使智能体在动态环境中运作。但当存在多个物体时，智能体如何决定特定动作的原因？它又如何兼顾不同物体的可供性？若目标沿非平凡路径移动呢？隐状态可被分解为独立分布，编码内禀坐标系中的多个实体，从而表达潜在的身体构型。此外，隐藏原因可关联至与智能体意图相关的潜在轨迹（Priorelli, Pezzulo, & Stoianov, 2023c; Priorelli & Stoianov, 2023b, 2024c）。每个实体的信念拥有各自的动力学特性，使智能体能够预测例如运动球体的轨迹。接着，我们描述了如何将此类单元扩展以构建复杂的（深层）层级结构——例如模拟人体运动学（Priorelli, Pezzulo, & Stoianov, 2023c），或执行更通用的参考系变换，如透视投影（Priorelli, Pezzulo, & Stoianov, 2023）。如今，隐状态的层级分解假定了一种更广阔的视角，亦可涵盖多智能体交互——这一点同样在离散框架中得到分析（Maisto, Donnarumma, & Pezzulo, 2024）。最后，我们描述了设计一种具有离散隐藏原因和连续隐状态的混合单元，通过贝叶斯模型约简实现动态推断（Priorelli & Stoianov, 2023a）；随后，一个更高层的离散模型使得模拟涉及在线动作规划的动态任务成为可能。这进一步揭示了连续模型中轨迹推断与离散模型中策略之间的平行关系。

维持运动学链深层表征的一个挑战是随之而来的计算复杂性以及从视觉输入推断身体姿态所需的时间，二者均随自由度增加而增长。这是因为由远端（如手部）层级产生的外在预测误差必须向上攀爬整个层级，直至（根部）以身体为中心的参考系。这直接影响行为准确性和运动时间，二者关键依赖于对内禀状态的正确推断。Priorelli, Pezzulo, and Stoianov (2023c) 中展示了随着自由度增加，在推断与行动期间的性能对比。相比之下，处理多个物体并不会显著增加推断时间，因为（深层）表征是并行计算的，仅受限于物体动力学的复杂性。与离散模型的通信同样高效，因为单个离散状态可同时基于多个单元推断身体轨迹（Priorelli & Stoianov, 2023a）。然而，环境中其他物体的行为要求不仅预测智能体在特定动作后的表现，还需预测其他物体的行为及其对智能体行为的影响。这需要丰富的离散表征来建模每个物体的交互，而在高维场景下评估复杂策略可能效果不佳（Paul, Sajid, Da Costa, & Razi, 2024）。最后一个问题是，为积累连续证据以支持单个离散步骤 τ 所需的时间 T。如 Priorelli 和 Stoianov (2024c) 图5b所示，狭窄的采样时间间隔可在高度动态环境中实现高效控制，但代价是计算时间增加。

本文综述模型的一个局限在于其固定结构。因此，关键问题在于：如何在不将先验知识嵌入智能体生成模型的前提下实现工具使用？换言之，智能体如何在空白记忆起点或假设环境保持不变的情况下，通过主动推理完成任务？对连续时间主动推理模型的一个常见批评是，其生成模型是预先定义且固定的，具有复杂且硬编码的动力学函数，引发对其生物学合理性的担忧。相比之下，PCN的一个吸引人特点是：它们用神经网络连接中典型的极简函数（如权重与偏置的线性组合传递给非线性激活函数）模拟大脑处理过程。这使PCN能轻松适应高维数据，并相较于深度学习具备若干关键优势（如自上而下的调制）（Millidge, Seth, & Buckley, 2022）。尽管大部分PCN研究涉及静态表征，但一些研究探讨了如何利用预测编码学习时间序列（Jiang & Rao, 2023; Millidge et al., 2023），或解决强化学习任务（Millidge, 2019; Ororbia & Mali, 2022; Rao et al., 2022）。在此，我们展示了主动推理中的生成模型如何通过简单的似然与动力学函数实现，显示出与PCN推断的一些类比。基于这些发现，一个有前景的研究方向将是模仿其（深层）层级架构（如图9(d)），从而使智能体不仅能灵活调整身体图式以与具有不同层级结构的物体互动，还能学习系统动力学并据此行动，使其符合先验信念。

在连续环境中学习策略并非易事，但采用不同于传统方法的策略可能是推动当前智能体发展的关键，从而充分实现主动推理与自由能原理背后的完整理论潜力。在此方面，前沿方法是通过深度神经网络逼近似然与转移分布（Çatal等, 2019; Champion等, 2023; Ferraro等, 2023; Fountas等, 2020; Millidge, 2020; Ueltzhöffer, 2017; Yuan等, 2023; Zelenov & Krylov, 2021）。尽管相比深度强化学习有诸多优势，但这仍使深层结构局限于神经网络内部，通常仅使用单层主动推理智能体。一项研究使用了更具生物合理性的PCN作为生成模型（Millidge, 2019），但仍依赖类似方法。正如Friston (2008) 所详尽分析，神经网络可被视为具有最后一层无限精确先验且无隐状态的静态生成模型。这种架构可用于稀疏编码或主成分分析（PCA）；然而，它无法解释动态变量，如反卷积问题或状态空间模型中的滤波。因此，无论离散还是连续的时间深度，对于推断环境最精确的表征至关重要——事实上，皮层柱似乎能够表达模型动力学（例如，前额叶皮层持续参与预测未来状态，早期视觉皮层也记录到运动敏感神经元 Grossberg & Pilly, 2008）。虽然循环神经网络或Transformer等深层架构能轻松处理时间序列（Vaswani等, 2017），但其被动的生成机制仍可能反映在主动推理智能体的行为中。与此类被动AI相反，扎根于感觉运动经验并主动修改环境，可能是产生真正理解的根本所在（Pezzulo, Parr, Cisek, Clark, & Friston, 2024b）。综合来看，这些事实表明，在解决强化学习任务时，基于广义运动坐标或离散未来状态的动作层级结构可能带来多重优势。例如，以层级方式表征智能体，可实现对其整个身体结构的高度先进控制，这是仅生成手部位置的单层模型所无法企及的（Priorelli, Pezzulo, & Stoianov, 2023c; Priorelli & Stoianov, 2024b）。

如何在深层层级模型中学习动态规划？Friston等人(2023)强调，在考虑结构学习时，离散化的重要性不容忽视。确实，层级离散模型相比其连续对应物具有更强的表达能力，尤其源于计算预期自由能的简便性。然而，正如Friston及其同事所指出，使用连续还是离散表征取决于模型证据。具体而言，当证据具有连续性属性时（例如处理时间序列或欧几里得空间），前者可能表现更优。事实上，图18所示的任务之所以有效，是因为贝叶斯模型约简在智能体操作的外在空间中执行动态证据累积。因此，将图17中混合单元的层级深度与一个层级离散架构（而非仅单一层级）相结合，可能在不断变化的环境中实现高效的结构学习。一种成功的贝叶斯方法是利用无限狄利克雷过程与中国餐馆先验来生长离散分布（Sanborn, Griffiths, & Navarro, 2010）。该方法假设存在潜在无限的基分布混合，并从空模型开始构建结构——新配置要么分配给流行的现有状态，要么偶尔用于创建新状态。该方法已成功应用于学习支持复杂目标导向行为的结构（Stoianov, Genovesio, & Pezzulo, 2016）、层级空间组织（Stoianov等, 2022）和空间导航（Stoianov等, 2018）等应用。层级离散模型的另一种替代方案是结合由联合离散-连续模型组成的单元——如图15所示——这允许在每个单元内执行动态规划。尽管此方案可能缺乏来自生物智能体的实证支持，但从机器学习角度看，它可能是一个值得探索的方向，可与“中心化离散决策”假设形成对比，转而支持“分布式局部决策网络”。

第三个有趣的话题涉及运动意向性。尽管多步任务通常在离散层面处理，但我们在此展示，在适当假设下，也可在连续层面实现并分析非平凡行为。我们定义的灵活意图可与运动技能学习的高级阶段相比较，即自主、流畅的动作无需意识决策（Priorelli & Stoianov, 2024c）。即便如此，模型结构仍是预设的。那么，此类意图如何在重复接触同一任务的过程中涌现？智能体如何评估哪些意图适用于特定情境？如上一章所述，动力学精度的优化很可能涉及简化模型的自由能（见公式(38)）。这一过程或许能阐明离散动作如何从低层连续轨迹中涌现，反之亦然——连续轨迹如何由复合离散动作生成。最后，少数研究提出了不同时间尺度上展开的策略之间的附加连接，无论是直接连接（de Tinguy等, 2024; Van de Maele等, 2024）还是通过离散隐状态连接（Friston等, 2024）。此类方法也可应用于混合与连续情境，从而使灵活意图可通过整个层级中隐藏原因间的局部消息传递进行传播。

原文链接：https://arxiv.org/abs/2402.11658

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-11-21，如有侵权请联系 cloudcommunity@tencent.com 删除

函数