具身决策即主动推理

CreateAMind

发布于 2026-03-11 19:21:36

430

文章被收录于专栏：CreateAMindCreateAMind

具身决策即主动推理

Embodied decisions as active inference

https://doi.org/10.1371/journal.pcbi.1013180

摘要

决策过程常被概念化为一种串行过程：在此期间，感官证据针对各个备选选项不断累积，直至达到某一阈值，此时做出决策并执行动作。这种"先决策后行动"的视角已成功解释了实验室中感知决策与经济决策的多个方面，而在这些实验中，动作动力学通常与选择无关。然而，生物体常常面临另一类决策——被称为具身决策（embodied decisions）——这类决策需要在动态环境中及时选择潜在的行动方案，例如，对狮子而言，决定追捕哪只瞪羚以及以多快的速度追捕。对具身决策的研究揭示了目标导向行为的两个与串行观点截然不同的方面：第一，决策过程与动作过程可以并行展开；第二，与动作相关的成分（例如，选择某一特定备选选项所涉及的运动成本，或在不同备选选项间"改变主意"所需的成本）会对所做出的决策产生反馈效应。在此，我们表明，具身决策的这些特征会自然地出现在主动推理（active inference）框架中——该框架根据同一原则（自由能最小化）同时优化感知与动作。我们表明，优化具身选择需要在运动规划（关于备选选项的信念引导动作动力学）与运动推断（动作动力学细化关于备选选项的信念）之间建立持续的反馈回路。此外，我们的主动推理模拟揭示了具身决策在生态情境中的规范性特征——即，在高准确性与低错失有效机会风险之间实现有效平衡。

作者总结 在本研究中，我们引入了一种新颖的建模方法来探索具身决策，即决策与动作在动态环境中同时发生。与传统模型将决策与动作视为分离过程不同，我们基于主动推理的框架揭示出：具身决策的关键特征——例如决策动力学与动作动力学之间的反馈回路——会自然涌现。通过模拟实时决策任务，我们展示了生物体如何通过整合感官信息与运动动力学来持续优化其选择。这使得它们能够在决策准确性与对快速、适应性动作的需求之间取得平衡。

我们的模型为理解决策如何受到所采取行动的影响提供了新的视角，强调了将运动控制视为决策过程不可或缺组成部分的重要性。这一方法拓展了决策研究的范围，并为在生态效度高、时间敏感的情境下的行为提供了新的见解，对神经科学、认知科学以及涉及人类与动物行为的领域具有潜在的应用价值。

引言决策传统上被概念化为一种串行的、先决策后行动的过程，在此过程中，感官证据被累积直至达到某一阈值，此时做出决策并执行动作。这种方法，正如由漂移扩散及相关模型所形式化的那样，在分析来自感知和经济决策实验室研究的行为和神经数据方面非常有用 [1–3]。在这些研究中，参与者在固定的选择备选方案（通常是两个）之间进行选择，这些方案反映感知判断（例如，运动辨别）或经济提议（例如，彩票）。

然而，动物经常面临另一类不同的具身决策，这意味着要在动态环境中立即执行的行动方案之间进行选择；例如，对于狮子而言，是选择追捕哪只瞪羚，或者对于足球运动员而言，是选择将球传给哪位队友 [4–10]。为了应对这些具身决策的需求，动物经常需要与决策过程并行地指定、准备有时甚至执行动作——正如“可供性竞争”概念所捕捉的那样 [5,11]。

这些考虑促使了一系列实验，这些实验在感知和经济选择期间使用性能的连续测量；例如，追踪从起始位置到反应按钮移动过程中的手部运动学——使用计算机鼠标 [12,13]。尽管它们很简单，但这些实验允许分析导致决策的动态过程以及正在进行的审议与运动之间的相互影响（即，行动时决策或连续决策 [14]）。它们揭示参与者同时移动和审议：他们通常非常早开始移动，要么朝向特定目标，要么朝向中间（如果他们更不确定）；他们经常在试验中途重新考虑他们的决策，这由他们运动的曲率所显而易见；并且他们有时在目标之间改变主意，这由轨迹的剧烈变化所显而易见 [15–18]。这些发现摒弃了串行模型，并能由并行 [19] 或连续流模型 [20] 更好地解释，在这些模型中，展开的感知和决策过程并发地驱动一个或多个反应的准备以及可能的外显执行并行——意味着任务期间的运动提供了对正在进行的审议的连续读出。从规范视角来看，并行模型提供了一种更快地实现决策的方式，这对生存至关重要，因为它避免了失去有价值机会的风险——尽管有时以减少准确性为代价 [21]。

关键在于，一些关于具身决策的研究揭示了动作动力学对决策过程的反馈效应，这在串行甚至并行决策模型中先前被忽略了。例如，一个反复出现的发现是，与不同选择备选方案相关的运动成本会影响感知和经济决策。在模糊感知决策 [22,23] 和基于价值的决策 [24] 期间，参与者表现出偏向选择与成本较低的运动相关的反应选项。如果在感知任务期间改变运动方向相关的成本更大，例如当反应按钮相距更远时，改变主意的情况发生频率较低 [25]。类似地，在经济任务期间，运动轨迹受到扰动后的改变主意情况对运动系统的当前状态（位置和速度）敏感，并且当抵消扰动成本更高时发生频率较低 [26]。

这些及其他研究表明，不仅审议在运动开始后继续（符合并行模型），而且它受到来自动作动力学（例如，运动成本）的反馈影响。这促使了一类新颖的具身决策模型，其中动作不是决策过程的惰性结果，而是影响决策过程，形成一个闭环 [21,27]。这些模型的动机基于这样一个事实，即从具身视角来看，主体的目标不仅是在选择备选方案之间进行选择（如在经典设置中），还要同时在到达目标的潜在行动方案之间进行选择（通常在截止期限内）并追踪动作本身——这意味着决策和动作过程需要被联合且连续地优化。反过来，在神经层面，具身决策可能需要跨各种处理结果价值和运动计划的大脑网络达成分布式共识，而不是传统假设的集中式过程 [28]。

在此，我们表明具身决策的关键特征会自然地涌现于主动推理中，这是一个将感知和动作选择建模为同一目标（自由能最小化）的两个方面的框架 [29–33]。通过将具身决策模拟为一个主动推理过程，我们能够复现各种关于动作和决策在时间上并行展开的实证发现，以及运动动力学在感知中的反馈效应。此外，我们阐明了在时间压力下，具身选择相对于串行选择的规范优势。

结果我们通过模拟一个具有时变信息的二选一强制选择（2AFC）决策任务，来展示具身决策的主动推理模型的工作机制。即，在每次试验过程中，以顺序呈现的线索形式表达的、支持某一选项或另一选项的证据会发生变化，正如文献 [34,35] 所述（图 1A）。智能体必须将其 3 自由度机械臂从起始位置（中心处的小蓝点）移动至左侧（红色圆圈）或右侧（绿色圆圈）的目标按钮，以报告哪个目标包含或将会包含更多线索。在任务过程中，15 条线索依次出现，每次出现在左侧或右侧圆圈内，随后消失，仅保留最后一条线索可见。智能体可以在任意时刻开始移动，且在移动过程中线索仍会正常继续出现。试验在智能体触达两个按钮之一时结束（或在截止时间内结束）。

关键在于，通过操纵线索序列，我们比较了智能体在三种条件（或试验类型）下的决策动力学：一致条件（congruent），即初始阶段正确目标中出现的线索比例更高；不一致条件（incongruent），即初始阶段错误目标中出现的线索比例更高；以及中性条件（neutral），即初始阶段两个目标中出现的线索比例保持平衡。

下文将展示，一个混合主动推理模型（即由离散变量与连续变量共同构成的模型），通过联合优化决策与动作，能够复现这些具身选择的特征。该模型可分解为四个相互作用的过程——证据累积、运动规划、运动推断以及跨试验的统计学习（连同习惯形成）——参见图 1B 的示意图及第 4.1 节的技术细节。下文我们将讨论这些过程，并呈现关于它们如何影响智能体决策与动作过程的模拟结果。

2.1. 第一个过程：选择备选方案的证据累积

第一个过程负责累积针对选择备选方案的序列证据。它包括离散隐藏状态 s，其编码了每个目标是当前试验正确选择的概率（即，将包含最多线索的那个）。

我们用上述解释的三种条件测试主动推理模型。在一致试验中，线索以80%的初始概率向正确目标移动，然后逐渐增加，在8个线索后达到100%。在中性和不一致试验中，正确目标的概率分别初始化为50%和20%，然后像一致试验那样增加。每个试验包含21个离散时间步 τ，每个时间步又包含30个连续时间步 t。在

时，不呈现线索，但智能体可以移动。在接下来的15个时间步中，每个时间步呈现一个线索。最后，在最后4个时间步中，不呈现线索，但智能体仍然可以移动并到达目标。

2.2. 第二个过程：运动规划与紧迫性

当面对相同的任务时，不同的参与者群体可能会表现出不同的策略；例如，一种保守策略是推迟运动，直到他们感到足够自信，或者一种冒险策略是猜测正确的选择并立即开始移动 [38]。

图3展示了在不一致试验中，三种紧迫性水平对运动起始和速度的影响。由于

，三种情况下的证据积累相同，但轨迹根据智能体移动的紧迫性而变化，产生了冒险、中等和保守策略。高和中等水平的紧迫性产生更冒险的策略，最初向错误目标移动，然后表现出改变主意。低紧迫性产生一种保守策略，直接向正确目标移动，但当两个目标概率太接近时反应时间更长，未能在截止日期内完成试验。这是因为离散模型生成的轨迹不断被保持动态加权，因此低精度

（意味着低紧迫性）不仅导致运动起始延迟，还导致运动更慢。这一模拟说明，操纵紧迫性为证据积累与运动动力学之间的联系提供了灵活性。高紧迫性下，智能体更早移动并承担失败的风险，而低紧迫性下，智能体可能等待直到积累足够的证据，以对正确目标达到非常高的置信度。有趣的是，紧迫性和证据积累速度可以相互作用，如图4所示。最后，这个例子说明，当紧迫性被设为非常低的水平时，具身模型近似——甚至转化为——一个串行的先决策后行动模型，仅在完全证据积累后才启动运动。这一结果凸显了紧迫性在塑造决策与运动之间相互作用中的关键作用。

2.3. 第三个过程：运动推断与承诺

2.4. 第四个过程：统计学习与习惯形成

在各种认知任务期间，例如 Flanker [44] 和 Posner 任务 [45]，有可能学习统计规律性，例如正确反应的概率或跨试验线索的有效性。在这些任务中，试验序列效应经常被报道，表明参与者在跨试验中形成期望，影响他们随后的反应和运动 [46]。我们模型的第四个过程实施了这种统计学习，这简单地等同于对跨试验的离散隐藏状态 s 的 Dirichlet 先验进行计数。每次试验后，这些计数会根据以下更新：

图 9 展示了在 50 次不一致试验期间，学习关于正确反应的先验所产生的影响。在前 10 次试验中，正确（左侧）反应保持稳定，随后发生反转。在第一个（学习）阶段的早期试验中（图 9A 中的深蓝色），智能体向错误方向移动，随后改变主意。然而，在后期试验中（图 9A 中的深红色），它逐渐开始提前向正确目标移动，预判错误线索累积过程中的转变。与此同时，运动起始时间减少（图 9B）。这些结果表明，强先验可以克服冲突证据。在第 10 次试验反转之后，第一个目标的离散先验缓慢下降，因为第二个目标的 Dirichlet 计数开始增加（图 9B）。在早期试验中，运动曲率增加且运动起始较慢，因为智能体对于线索采样背后的正确分布不确定。在后期试验中，运动曲率减小且运动起始加快，因为智能体习得了新的依从关系（contingencies）。

这些结果表明，我们的模型可以纳入认知任务期间出现的序列效应 [46]。请注意，虽然我们专注于学习正确选择的先验概率，但其他模型参数，例如似然矩阵 Ac 和 Ah 的不确定性，也可以使用相同的方法进行更新——另见 [47]。

讨论多年来，关于人类和动物行为的主导观点一直是串行的、先决策后行动的策略。然而，各种研究表明，在具身决策期间（即需要同时指定并在备选行动方案之间进行选择时），串行观点是不足的。这些研究报告了早期的运动起始、主意的改变以及运动成本对决策的影响，表明决策和动作过程并行展开并相互影响 [10,12,13,21,27]。在此，我们表明，具身决策的这些特征会自然地涌现于主动推理中：这是一个在自由能最小化原则下联合优化决策和动作的框架 [29,31]。

我们的模拟强调，四个模型过程——证据累积、运动规划、运动推断和统计学习——形成了一个闭环，允许决策和动作过程相互影响。与串行模型相比，由此产生的具身模型获得了更好的速度 - 准确性权衡（图 8A）——这表明它们可能赋予生态优势 [4,21]。

我们模型的一个创新方面是运动规划和运动推断之间的相互作用。在运动规划期间，智能体对正确选择的推断会产生关于下一个离散手部动力学的预测，这些预测被转化为到达相关目标的连续运动规划。反过来，在运动推断期间，智能体利用动作动力学作为正确选择的证据。换句话说，智能体将其自身的行为视为信息来源 [48]。这种机制意味着运动稳定了决策并产生承诺（commitment）。此外，它解释了具身决策的关键方面，例如任务前显现 [22] 或任务期间变化 [26] 的运动成本会影响决策结果这一事实。

请注意，关于具身决策中的运动成本，存在两种替代视角（或解释）。根据基于价值的视角 [21,25,27]，在运动期间，智能体持续估计做出备选选择所需的动作成本，然后将估计的成本与正确选择（由感官证据推断）相结合以决定下一步动作。相反，这里提供的视角基于（主动）推理。我们的模型不显式计算运动成本，而是计算离散手部动力学 oh 的概率：简而言之，智能体只是试图从其可用的信息（包括其自身的运动）中推断出正确的目标，而高运动成本仅仅意味着一种无法很好解释当前情境的潜在动力学。鉴于推断公式（使用概率）和控制公式（使用成本）的对偶性 [49,50]，主动推理和基于价值这两种视角在数学上是相关的。但由于在主动推理中（运动）成本被吸收到（先验）概率中，其吸引力在于使用动作控制所需的同一推断机制来实现具身决策，而无需即时计算额外的量（如运动成本）。

同样的推断机制也允许考虑其他类型的先验偏好（或运动成本）。例如，在模型中包含对生物力学上更简单运动的先验偏好，会自动偏向那些更近或更容易到达的目标，正如实证观察到的那样 [22]。此外，虽然本研究专注于感知决策任务，但同样的模型也可应用于基于价值的决策，其中不同的选择目标与不同的价值或奖励相关联。这可以通过赋予具有更高经济价值的目标更强的先验偏好来实现。这种扩展还将使得研究经济价值如何在具身选择任务中影响动机和运动活力（vigor）成为可能 [51]。

利用先验偏好（关于策略或结果）的另一种方式是解释偏差，例如跨试验形成的重复偏差。研究已经证明了在感知 [52] 和视觉运动任务 [53] 中的序列效应，表明最近的试验历史可能会偏置随后的决策。图 9 中的模拟说明了某些偏差或习惯如何从对先前反应的统计学习中涌现。然而，习惯也可能源于简单重复之外的其他交互方面。例如，奖励可能与某个目标相关联并影响运动，即使该目标改变了位置——这种效应不能仅通过重复相同的运动来解释。解释这些以及其他偏差的认知方面（超越单纯的运动重复），可能需要增加对抽象结果的先验偏好（例如，无论空间位置如何都要到达一个有奖励的目标）。调查这种可能性仍然是未来研究的一个未决问题。

我们模型的另一个关键方面在于，通过调节运动的紧迫性，它可以模拟实证研究中观察到的一系列策略——从更具风险性到更为保守的策略 [38]。未来的工作可能会探索如何反演此处提出的生成模型，以便从行为数据中识别个性化参数（例如，个体的紧迫性）。虽然我们在主动推理框架下涵盖了具身决策的几个重要方面，但我们重点关注的是离散决策与连续动力学之间的关系。一个更现实的模型还应考虑离散动力学，这对于解释人类如何在有限时间内优化累积成功次数可能至关重要——正如文献 [34] 所分析的那样。此外，虽然我们的模型解释了运动如何稳定决策，但它并未包含其他稳定机制，例如感官精度的调节（即卡尔曼增益）[54–56]，这些可能在未来的研究中加以涵盖。

未来研究的一个重要方向是对此处引入的具身选择模型进行实证验证。在本研究中，我们提供了规范性论据，说明与串行策略相比，具身模型在速度 - 准确性曲线方面的优势。此外，我们已展示该模型能够复现数据的定性特征，例如轨迹曲率的增加以及"改变主意"的频率随选择不确定性而增加的现象 [15–18]，以及具身选择速度与置信度（即正确选择的概率）之间的相关性，这与实证报告的结果一致 [43]。未来的研究可以利用具身选择模型拟合实证数据，方法是利用这样一个事实：通过改变各种似然映射的精度可以引发不同类型的行为——如文献 [47] 所示。原则上，可以优化给定实验范式的生成模型的精度，以匹配实验受试者的行为。这将提供一个机会，根据受试者（或患者）生成模型关键组件的（精度）对其进行计算表型分析 [57]。这种计算表型分析已被用于通过选择行为来表征精神科受试者的先验精度和偏好，原则上可以扩展以涵盖本工作中考虑的具身决策。这将允许系统地研究行为对各种似然映射相对精度的敏感依赖性，这可能是具身决策的一个重要方面。值得注意的是，虽然本研究中展示的四个过程各自以相对直接的方式运作，但它们的相互作用更为复杂。某些参数组合是否在特定的具身情境中特别有效——例如那些以不同紧迫性或精度水平为特征的情境——仍然是一个未决问题。例如，我们的模拟表明，运动推断的益处既取决于试验统计特性（例如，一致、中性和不一致试验的比例），也取决于紧迫性，然而这些因素之间的相互作用仍有待探索。此外，目前尚不清楚个体是否能够灵活地为每种情境选择最合适的一组参数，或者他们是否在不同情境中重复使用次优的参数化方案。

从神经视角来看，具身选择模型与决策的感觉运动理论以及来自后顶叶皮层（PPC）和背侧前运动皮层（PMd）等区域的神经证据相一致，在这些区域中，动作计划被动态地表征并竞争选择 [58–60]。重要的是，在具身选择模型中，决策是一个整合多个（子）过程或通路的分布式过程，这与将决策视为"分布式共识"而非集中式过程的概念一致 [28]。图 1B 所示的混合架构可能对应于一种（层级）神经架构，涉及递归动力学和广泛的皮层 - 基底节 - 丘脑 - 皮层环路，这些环路支持感知、动作和决策过程之间的持续交互 [61]。关于主动推理中运动控制的生物学基础的更详细讨论，另见文献 [62]。此外，模型的精度加权机制（决定了似然映射如何影响决策和运动）可能对应于调节突触效能的神经调制过程，例如由多巴胺和去甲肾上腺素介导的过程 [63]。未来使用神经影像学 and 电生理学的研究可以进一步调查我们框架的神经实现方式，以及图 1B 中的变量如何对应于具身决策任务期间的神经活动。

方法 4.1. 主动推理中的动态混合模型 主动推理是一种计算理论，它提出了一个统一的范式来理解生物体中的认知处理和行为。它基于自由能原理，该原理指出，为了生存，每个生物体都必须主动最小化意外 [29,31,64]。

主动推理模型已在离散时间和连续时间中均被公式化。然而，可以认为，对生物体的全面解释可能需要混合模型，即结合离散和连续时间公式的模型 [65, 66]。例如，在人类神经系统中，大脑皮层可能在离散状态空间中运作，而低级感觉运动环路可能最好用连续表征来理解；两者之间的接口归因于皮层下结构，如丘脑或上丘 [67]。混合模型已被用于模拟许多场景，例如图形阅读 [65]、神经疾病下的运动 [62] 或内感受控制 [68]。在此，我们简要介绍此类模型的一个特定实例，该实例有助于推断并对动态轨迹采取行动 [36,37,42]。关于主动推理和自由能原理的更多细节参见 [31]，关于贝叶斯模型选择参见 [69]。

离散模型与隐藏马尔可夫模型（HMM）相似，并被定义为部分可观察马尔可夫决策过程（POMDPs）[70,71]。特别是，它们与机器学习的一个子领域有关，称为“作为推断的规划”[72,73]。离散模型假设生物体通过优化内部生成模型来感知环境，推断外部原因如何导致环境中的感官信号（称为生成过程）。用 ss表示离散隐藏状态，用 oo 表示离散结果，用 ππ 表示策略（在主动推理中即动作序列），智能体在离散时期 TT 后的生成模型分解为：

通过 VFE 最小化，生物体能够捕捉环境的最优表征；然而，它们无法执行任何形式的未来规划。为了做到这一点，它们还将未观测到的结果视为随机变量，并推断最可能导致其偏好结果的最佳策略或动作序列。更正式地说，如果我们用 p(oτ∣C)表示编码智能体在未来某个时间点 τ 的偏好结果的概率分布，则通过最小化智能体预期在未来感知到的自由能——称为期望自由能（EFE），并用 G 表示——来找到最佳策略：

公式 16 构成了与最优控制和强化学习理论的鲜明差异。这些理论假设隐藏状态具有内在价值，并且智能体推断出能使从环境中获得的未来奖励累积最大化的最优策略。相反，主动推理仅假设每个生物体相信环境将以其表型决定的特定方式演化。在此观点下，行动仅仅是另一种与感知互补的方式，用于最小化自由能（因此，即意外），即减少智能体的先验信念与实际生成过程之间的差异。换句话说，通过行动，它们使未来的观测与其内部模型保持一致——这一过程被称为自证（self-evidencing）。此外，公式 16 第二行和第三行的两个组成部分蕴含了众所周知的利用（exploitation）与探索（exploration）之间的权衡，并补充说明后者（也称为模糊性，ambiguity）参与了游移（itinerant）和寻求新奇的行为。

为了让离散模型能够处理连续输入的丰富性，它被链接到一个主动推理连续模型 [65,66]。后者与上述离散模型高度相似，不同之处在于现在仅最小化变分自由能（VFE）（出于这个原因，单独的连续模型无法进行高级决策）。连接这两个模型的标准方式是让一个离散结果生成一个因果变量（例如，要到达的目标的位置），该变量进而产生一个连续轨迹；通过这种方式，反演模型意味着基于连续轨迹推断目标，然后通过将其与智能体先验已知的一些固定位置进行比较，找到最能解释推断目标的离散结果。为了使智能体的表征更加灵活，我们可以改为由一个离散结果直接生成一个连续轨迹。在此，我们简要描述这种替代方法。

首先，我们用以下非线性随机方程对连续环境进行建模：

其中前两个分布被假设为高斯分布，而最后一个则是前文定义的分类（似然）分布：

其中

是从感觉到动作的逆映射。该映射实现了动力学反演，并被认为由脊髓中的经典反射弧实现 [75,76]。

4.2. 主动推理中的逆运动学

关于如何在主动推理中实现逆运动学，已经提出了几种方法。模拟到达任务（reaching task）最常见的方法是将外在坐标系中的目标位置编码为连续模型的因果变量。该变量为隐藏状态的一阶量（例如，速度）生成预测——这些隐藏状态以内在坐标编码智能体的关节角度——因此作为朝向期望位置的动态吸引子。在这种简单的表征中，因果变量与隐藏状态之间的链接执行了目标位置的逆运动学，其产物（即，智能体手部位于目标处的可能构型）与通过正向运动学计算出的手部外在位置进行比较。在这种简单的表征中，（内在和外在）两种参考系均在单一主动推理层级中使用。

另一种更强大的方法利用了从预测编码继承的理论的一个方面，即，神经系统通过构建层级架构来近似真实后验，在该架构中，特定层级充当上一层级的观测值并充当下一层级的先验 [40,41]。通过这种方式，更高层级可以构建日益丰富且更具不变性的环境表征，类似于神经网络的深度生成模型。由于一个层级仅与紧邻其上方和下方的层级进行通信，整体生成模型可以分解为独立分布，并且每个层级都可以像离散和连续主动推理的一般公式那样进行分析。具体而言，逆运动学的层级方法是设计一个两层结构，其中编码智能体关节角度的内在单元（intrinsic unit）对编码智能体手部的外在单元（extrinsic unit）具有因果影响。这种方法遵循生成过程的自然流向，并在内在动力学与外在动力学之间实现了有效的分解。在此，我们简要描述这第二种方法。

高层级的内在单元 Ui 受以下方程支配：

对于这两个单元，我们注意到一个外在预测误差，它要么充当先验，要么充当观测值；一个感官层面的观测（无论是本体感觉还是外感受）；以及来自先前或连续时间阶次的动力学预测误差。这种两层架构在需要内在和外在域动态约束的任务中非常有效（例如，在保持手掌向上的同时移动手臂），但在需要同时协调多个肢体时会失效。在这种情况下，我们可以通过为智能体身体的每一个自由度设计一个内在 - 外在模块来扩展模型。随后，最后一级（例如，手部）的动态吸引子会导致一个预测误差，该误差反向传播至整个层级，最终推断出身体的适当层级构型。

原文链接：https://doi.org/10.1371/journal.pcbi.1013180

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-02-28，如有侵权请联系 cloudcommunity@tencent.com 删除

变量