共享具身认知的关键发展

CreateAMind

发布于 2026-03-11 17:37:01

360

文章被收录于专栏：CreateAMindCreateAMind

Mutual human-robot understanding for a robot-enhanced society: the crucial development of shared embodied cognition

人机相互理解：迈向机器人增强社会的关键——共享具身认知的发展

DOI:10.3389/frai.2025.1608014

概要 : 本文提出了一种共享具身认知框架，以改善人机交互。强调机器人如何通过模拟人类的感知-行动循环来促进相互理解，聚焦于社交场景中的非语言、基于身体的交互，而非语言驱动模型。
推荐理由: 适合关注具身认知在机器人学和人机协作中的应用研究者，提供将身体-环境动态融入AI系统的实用方法。

将自主、智能、协作的机器人构想，在上个世纪下半叶还只是科幻小说的主题，而非真正的科学；当时实际应用仅限于不具备任何自主性、智能性或协作能力的工业机械。新世纪正面临工业和社会变革的迫切挑战（4、5、6……），机器人有望渗透到人类社会的各个领域；然而，这种广泛普及只有在实现可接受程度的自主性、智能性和协作能力的前提下才可能实现。为此，需要在高度跨学科的框架内进行科学与技术创新，采用关键性的整合策略和功能表征方法，同时必须提出一个根本性问题：自主、智能、协作机器人的设计，应追求一种可大规模生产的统一模板，并为每个原型提供标准化的功能适应流程；还是应追求一种具备最少感官-运动-认知能力的“婴儿”机器人，作为在人类同伴（主人、合作者、最终用户）密切参与下的训练与教育过程的起点？前一种选择得到“具身人工智能”（EAI）的支持，即人工智能计算工具家族中基于大型基础模型的具身化变体。后一种选择则是受生物学启发的，即试图复制具身认知科学的计算结构。两种方案都将“具身性”（embodiment）视为核心问题。然而，我们认为这一概念在两种情况下具有明显不同的含义和实际含义，尽管目前我们距离这两种发展路径的实际实现仍有很长的路要走。在这篇观点论文中，我们解释了为何我们认为，相较于EAI方法，生物启发的方法为开发自主、智能、协作的机器人提供了更可行的发展路线。特别是，我们强调了广义上的人机协作互动的重要性，这种互动范围广泛，从共同体力劳动中的触觉互动（例如装卸货物），到复杂任务联合战略规划中的认知互动。我们认为，只有当人与机器人之间基于具身认知架构的结构性等效性，实现深层次的相互理解时，此类协作才可能实现——这种理解建立在主动的、第一人称经验获取的基础之上，而非被动地下载第三人称知识。

关键词：具身人工智能，具身认知科学，生成主义理论（enaction theory），认知的模拟理论，发展心理学，生态心理学，前瞻性（prospection），延展心灵假说

引言

在上个世纪的下半叶，自主、智能、协作机器人的构想更多属于科幻小说而非科学范畴，其实际应用仅限于缺乏任何自主性、智能性或协作能力的工业机械。新世纪面临着迫切的工业与社会革命挑战（4、5、6……），机器人有望渗透至人类社会的各个领域。然而，这种广泛普及只有在实现可接受程度的自主性、智能性和协作能力的前提下才可能实现。为此，需要在高度跨学科的框架内推动科学与技术创新，采取关键性的融合策略并进行功能表征，同时必须提出一个根本性问题：自主、智能、协作机器人的设计，应追求一种可大规模生产的统一模板，并包含为每个原型进行功能适应的标准设置/调校流程；还是应追求一种具备最少感官-运动-认知能力的“婴儿”机器人，作为在人类同伴（主人、合作者、最终用户）密切参与下的训练与教育过程的起点？考虑到这两种路径距离实际应用尚有数十年之遥，我们建议在评估不同选项的优缺点及其理论基础的稳健性时，应超越对人工智能技术过度或强烈的赞誉。

知识、认知、智能、智慧

2024年诺贝尔物理学奖和化学奖授予了两位人工智能科学家，突显了社会与经济对基于大数据和强大计算能力的科学方法的高度期待。然而，这种方法在伽利略和牛顿所确立的现代科学方法论框架内，其科学实质仍待理解，尚需验证。毫无疑问，市面上已有的大型语言模型（LLMs）或视觉语言模型（VLMs）能够通过图灵测试，展现出机器参与自然、可信语言对话的能力。特别是，最近的实验结果表明，经过适当提示后，GPT-4.5能够在形式化的测试中通过测试，人类评判者在超过70%的情况下将其误认为真人——甚至比真实人类参与者被误认的频率更高（Jones 和 Bergen，2025）。

我们应记住，图灵测试最初被称为“模仿游戏”，因此更应被视为一种“类人度”测试，而非对智能的直接检验。此外，该测试仅考察语言能力，而语言能力本身并非获取和组织知识的唯一途径，更与机器人所需的、以目标为导向的运动能力的获取和组织毫无关联。与此同时，不可否认的是，人工智能模型能够加速对复杂问题空间的搜索，因此可作为发现大规模数据集中规律性和隐藏属性的有力工具，例如预测蛋白质的复杂结构。

然而，这些新计算工具的高效性并不意味着它们代表了一种全新且更优越的科学范式。一些人工智能支持者（Martin 和 Mani，2024；Xu 等，2024）主张，生成式人工智能中的基础模型将演变为一个新的科学领域，其核心创新在于克服人类心智的认知局限，从而实现远超受过良好教育的人类（包括最杰出的科学家乃至诺贝尔奖得主）的推理与心智能力。换言之，他们预期大型AI模型将迅速发展出最高水平的人类智能级别的通用人工智能（AGI），进而超越人类，最终成为一种“智慧”超人，拥有海量百科全书式知识的同时，还具备“智慧”——但他们在自然或人工层面均未能对这一复杂概念做出清晰定义。从智能跃升至“智慧”的过程，难以解释，更难以合理化。

我们认为，期待在至高人工智能之上再出现一种“人工智慧”，这种设想在逻辑上站不住脚，同时令人不安。特别是，我们必须考虑许多人士（包括两位诺贝尔奖得主之一的杰弗里·辛顿）所指出的人工智能伦理问题（Heaven，2023年采访）。尽管伦理问题不在本文关于认知机器人学的讨论重点之内，但鉴于本文基于具身认知在人机交互与协作原则中的核心作用，我们仍需在开篇就探讨所谓“人工智慧”的科学与技术合理性。

知识、智能与智慧是关于人类本性的相关但截然不同的概念。标准模板无法捕捉这些概念，因为每个个体在某种程度上都是独特的，即相对于任何可设想的标准而言都是一种例外。因此，人类本性总体上是悖论性的、矛盾的，并处于持续变化之中。在当前人工智能框架下，一个“智能系统”主要指具备解决问题能力的系统，这种能力依赖于大量事实与规则的知识。而人类的智慧则包含多个潜在冲突的组成部分（Jeste 和 Lee，2019），如社会决策、价值体系、情绪调节、亲社会行为、自我反思、对不确定性的接纳、决断力、知识与经验的融合、洞察力、良好判断力等。此外，智慧具有根本性的社会功能，即在价值体系框架内，引导人们考虑自身行为对自我和社会的影响。已有实验证据表明，个体中智能与智慧之间的关系远非线性（Glück 和 Scherpf，2022）。因此，从自然领域转向人工领域，没有充分理由相信，仅仅依靠提升智能就能通向智慧，这种进化路径并不具备前景。

现代历史，以文艺复兴和启蒙运动为标志，推动并巩固了科学范式作为无可争议的方法论标准的地位，也清晰地见证了人们对“智慧”这一概念的集体理解的曲折演变。无论如何，智慧始终是一种不断演进的过程，是需由个体社群在某种民主框架内共同决定和争取的成果，而非像国际象棋比赛那样，通过竞争来评判某个非凡个体的能力。

因此，期望自主的人工智慧成为人工智能基础模型不断升级后的“渐近涌现属性”，在科学与社会层面都是不合逻辑且误导性的。

简而言之，我们认为将高级人工智能形式视为一种新的科学范式是错误的。然而，这些技术将成为推动第四次工业革命及未来发展的强大工具。此外，可以预见，随着量子计算（Morasso，2023；Gill 等，2024）和/或湿件/有机计算（Jordan 等，2024）等新型计算范式的成熟，由人工智能驱动的未来场景将出现“饱和”，从而突破当前人工智能所依赖的数字框架的局限。量子计算有望揭示生物学中纳米尺度动态交互背后的量子效应，为理解中枢神经系统组织与发展的自组织过程开辟全新视野，从而支持自然智能的演化。此外，全数字化场景与基于量子/湿件计算的场景之间一个关键差异在于能耗，即非数字或部分数字化的未来场景内在具备更高的能量效率。

另一方面，近期基础模型（如大型语言模型LLMs或视觉语言模型VLMs）表现出的惊人性能，掩盖了一个事实：这些模型本质上是被动的。它们基于海量数据进行训练，因此本质上无法为机器人的身体提供特定的推理能力，而这种能力恰恰是在任何特定任务中识别出关键且通常极小的信息集以及行动组合所必需的——正是这些信息和行动的组合，决定了任务的成功或失败，以及行为的明智或愚蠢。

人工智能 vs. 具身认知

人工智能是一种非具身的计算过程，其设计初衷是进行各种形式的“模仿游戏”，最早可追溯至图灵测试（Turing，1950）。只有当一个AI智能体被要求采取行动时，即需要对来自物理世界的问题作出回应，并且这些回应必须在现实世界中产生某种物理效应时，“具身性”（embodiment）的问题才真正被提上议程。因此，该认知智能体必须拥有一个“身体”，包括用于感知和评估环境变化的传感器，以及在特定时间框架内（实时、延迟或间歇性）产生物理效应的执行器。或许最早提出的最小具身AI智能体范例是由布赖滕贝格（Braitenberg, 1984）提出的“车辆”（Vehicles）——一类结构简单的自主移动智能体，通过简单的、概念上类比的线路连接视觉传感器与运动执行器。根据所选线路结构和环境形态，这些“车辆”可表现出多种复杂行为，看似灵活、适应性强、目标导向甚至“智能”，尽管本质上规模极小，且并不涉及任何特定的认知过程。

这种如今被称为EAI（具身人工智能，Embodied AI）的极简主义方法，后来被布鲁克斯（Brooks, 1991）进一步扩展。他提出，无需复杂的算法或内部表征，自主智能体即可表现出智能行为，因为适应性动态的关键来源正是智能体与其环境之间的直接物理互动。由于这种互动依赖于智能体的身体，布鲁克斯得出结论：智能必须拥有身体，并建议称之为“具身智能”（embodied intelligence）。这一具身性假说随后由Smith和Thelen（1994）、Pfeifer和Scheier（2001）、Smith（2005）等人进一步发展，最终形成了当前对EAI的普遍理解：EAI是人工智能的一个分支，将人工智能整合进机器人等物理实体中，赋予它们感知环境、从经验中学习并动态与环境互动的能力。换句话说，EAI的明确目标是通过基础模型（Foundation Models）构建通用型机器人（Hu et al., 2023），即“能够在任何环境中、操作任何物体、运用多种技能完成多样化任务的机器人”。

然而，问题在于：如何将数据驱动的基础模型的逻辑整合到机器人的感官-运动-认知结构中，以覆盖感知、前瞻性（prospection）、任务规划和动作生成等广泛功能？环境、任务和动作的联合“空间”几乎是无限的，试图通过采样这一空间来训练一组能够封装通用智能机器人所需认知能力的基础模型，看起来是一项几乎不可能完成的任务——至少在开放环境和资源有限的条件下如此。

另一方面，我们应当注意到，设计具备通用智能的机器人的目标，早在EAI出现之前，就已在“认知智能体的认知架构”（Cognitive Architectures for Cognitive Agents）这一领域被深入研究。正如近期一项综述（Kotseruba 和 Tsotsos, 2020）所报告的，该研究领域数十年来一直非常活跃，涵盖数十个处于不同发展阶段的研究项目。然而，我们至今仍未形成某种标准框架。在已较为成熟的原型中，一些架构致力于将人类认知建模为统一的认知理论，例如SOAR（Laird等，1987）、ACT-R（Anderson，1996）、CLARION（Sun，2007）；另一些则明确面向发展型机器人学，如iCub（Vernon等，2007, 2011），或人形机器人的认知软件框架，如ISAC（Kawamura等，2008）、ArmaX（Vahrenkamp等，2015）和CRAM（Beetz等，2023）。这些原型以不同方式整合了自主认知智能体所需的关键认知功能（如主动感知、有目的行为、感知推理、学习、适应、预期、前瞻性、动机、注意力、动作选择、记忆、推理），并采用混合计算工具，包括基于逻辑编程、规则和公理进行推理与演绎的符号化工具，以及类似于EAI基础模型中神经网络的亚符号化工具。

然而，在上述两种方法中，具身性问题仅扮演次要角色，即仅限于将输入-输出外围设备与不同复杂程度的推理/推断机制进行整合：在“车辆”模型（Braitenberg, 1984）中，计算机制是一个简单的手工布线电子电路；在CRAM（Beetz等，2023）中，计算机制包括物理符号系统带来的自编程能力、用于通用动作计划的计划语言、隐性到显性的操控机制、生成模型、数字孪生知识表征以及支持叙事的 episodic 记忆；而在通过基础模型实现通用机器人的设想中（Hu等，2023），预计将应用已为机器人应用修改过的现有视觉和/或语言基础模型（Ahn等，2022；Chen等，2023），以及专为机器人功能开发的模型（Brohan等，2023a, 2023b），依赖其在不同任务甚至不同具身形态间的泛化能力。

在这一视角下，具身性在某种程度上被局限并简化为信息从感觉外围流向大脑更深层区域，再返回运动外围的单向流动。更广泛地说，我们有理由怀疑EAI在多大程度上真正实现了“具身”（Hoffmann 和 Patni，2025）。

与EAI（具身人工智能）对“具身”概念的最小化使用形成对比的是，我们应考虑另一种观点，即一种基于认知神经科学的“具身自然智能”形式，特别是20世纪90年代兴起的“具身认知”（embodied cognition）这一子领域（Varela等，1991；Clark，1997，1998），它最初是对笛卡尔二元论的反对，近年来又进一步反对认知主义（cognitivism）和计算主义（computationalism）。具身认知模型反对非具身的笛卡尔模型——该模型认为所有心理现象都是非物理的，因而不受身体影响；同时也反对EAI模型，其中具身性仅限于大脑、身体与环境之间的单向互动。具身认知的支持者所指的“具身”，是一种循环的、双向的互动过程：身体使大脑能够与环境进行物理互动，从而积累并提炼个人经验，推动智能体认知的形成与发展。Varela等人（1991）提出的“生成主义理论”（enaction theory）对此过程作出了解释：认知过程将感觉信息纳入一个感觉-运动回路，通过该回路实现对环境的主动经验（即“被生成”）。在此框架下，目标不是通过互动来学习世界的模型，而是学习智能体与世界之间互动的模型。

这种以“具身认知”为核心的观点，基于一个工作假设：认知过程深深植根于身体与世界的双向互动之中。Wilson（2002）将其总结为关于人类具身认知基本特征的六项主张，这些主张具有直接的计算意义：（1）情境性（situated-ness）；（2）时间紧迫性（time-pressured-ness）；（3）对环境内在动态的利用；（4）将环境整合进认知架构；（5）认知主要是一种在线的、以动作为导向的过程；（6）即使离线认知也是基于身体的。

支持这些主张的实验证据多种多样，包括以下几方面的研究线索：

感知的“意动理论”（ideo-motor theories，Prinz，1987）；
皮亚杰（Piaget，1952）的发展心理学，他追溯了认知水平从感觉-运动能力的巩固到更高层次的演化过程；
吉布森（Gibson，1977）的生态心理学，将主动感知定义为发现与环境潜在互动的可能性，即“可供性”（affordances）；
抽象概念的语言分解，即基于身体隐喻的定性解释（Lakoff 和 Johnson，1999）；
维果茨基（Vygotsky，1978）的社会文化理论，强调社会互动在塑造认知发展中的作用。

尽管有大量证据支持“心智只能在其与物理身体及世界在线互动的关系中被理解”这一观点（即具身性假说），但也有人反对指出，各种认知活动同样可以在大脑脱离与环境的即时互动时发生，即以“离线”方式进行。人类认知活动的在线与离线模式共存，似乎与具身认知假说相矛盾，因为该假说声称要描述的是整个认知过程，而不仅仅是其中一部分。然而，如果我们把“在线 vs. 离线”这一对立（与认知智能体和环境的互动相关）与另外两个对立联系起来——即“实际活动 vs. 想象活动”以及“外显行为 vs. 内隐行为”——这种矛盾就只是表面上的。这些对立反映了在执行有目的动作时所涉及的感觉-运动-认知过程，与用于推理虚拟动作（例如在“前瞻性”这一基本认知功能中）所激活的过程之间，在计算和神经层面的等效性。

“前瞻性”（prospection）是指对动作进行心理模拟，以评估其未来可能产生的感觉-运动、环境和社会效应，从而支持有根据的（甚至可能是明智的）决策过程（Gilbert 和 Wilson，2007；Seligman 等，2013；Vernon 等，2015）。上述等效性的实验证据来自对“运动想象”（motor imagery）的研究（Decety，1996；O’Shea 和 Moran，2017）以及认知的“模拟理论”（simulation theory of cognition）的各种形式（Decety 和 Ingvar，1990；Jeannerod，2001；Hesslow，2002，2012；Grush，2004；Ptak 等，2017）。该理论的一个核心观点是：模拟所使用的神经机制与通常参与动作执行和感知的机制是相同的。尽管有研究者提出，动作的模拟（或仿真）是由与运动和感知直接相关的脑区不同且独立的神经机制完成的（Wolpert 等，1998）。但无论如何，外显行为与内隐行为之间的等效性不仅体现在所涉及脑区的几何结构上，还体现在模拟动作与实际执行动作在时间上的对应关系上（Shepard 和 Metzler，1971；Decety 等，1989；Decety 和 Jeannerod，1995；Karklinsky 和 Flash，2015；Gauthier 和 van Wassenhove，2016）。

关于“在线 vs. 离线”表象悖论的问题，若结合人类认知的另一维度——即有目的动作的空间方面，即“认知皮层地图”的作用，便可得到更完整的解释。这类脑结构位于内侧颞叶，Tolman（1948）最早提出该概念以解释啮齿类动物的灵活行为，例如大鼠在迷宫中的觅食模式。在人类中，现已明确，认知地图不仅用于空间导航，还是在抽象空间中系统化组织知识的基础，从而支持高层知识的学习（Behrens 等，2018；Bellmund 等，2018；Bokeria 等，2021；Qiu 等，2024）。这意味着，先前在认知地图中被识别出用于引导物理环境导航的神经元（如“位置细胞”、“网格细胞”和“头方向细胞”），也可能支持在概念空间中进行心理“导航”，以完成更抽象的推理任务。

认知地图的双重作用——即在同一个脑结构中整合不同抽象层次动作的“几何”特征，以及参与认知模拟理论的脑区对“时间”、“运动学”和“触觉”特征在显性与隐性动作中的双重表征——说明了人类认知在何种意义上以及在多大程度上是根本具身的，这与一般人工智能（尤其是EAI）所具有的极低程度的具身性形成鲜明对比。

从哲学角度看，具身认知的本质与组织的强表述与“延展心灵假说”（extended mind hypothesis，Clark 和 Chalmers，1998）一致，即相信环境在驱动认知过程中具有根本性的主动作用。学习作为心智的主要功能之一，是从一个闭环动力学中涌现出来的，该闭环将主动感知、有目的行为、认知以及动态变化的环境联系在一起。换言之，学习以及其他基本认知功能（如前瞻性）应在一种“延展的心灵理论”框架内加以理解，该理论将不断变化的环境视为心灵动力学模型的一部分。

在延展心灵假说的框架下，我们还应认识到，这种“延展”自然地体现在两个方向：向物理环境的延展，以及向社会环境的延展。换言之，我们应认为，心灵的延展过程并非与生俱来或基因编码的，尽管它基于基因机制，但主要是不同发展过程的产物，具体表现为两大主线：（a）认知发展的多阶段理论，始于感觉-运动阶段（Piaget，1952）；（b）认知发展的社会文化理论（Vygotsky，1978）。

图1以简化方式展示了上述两种用于设计自主、智能、协作机器人的发展路径之间的区别：一是基于人工智能基础模型的路径，二是基于完整具身认知的路径。上方面板显示的是前一种路径：完成特定任务所需的感觉、运动、控制和推理过程，是从一个大型基础模型中推断得出的，该模型通过采样大量熟练人类代理人在类似情境下的表现（即大量第三人称知识数据集）进行训练。关键在于，这些数据虽然采集分辨率很高，但对“关键帧”的过滤却不足。下方面板展示了所提出的生物启发路径的主要特征。特别强调了具身认知的核心要素：基于第一人称经验的积累，并将其过滤和组织为个人的表象记忆/程序性记忆，再通过一个前瞻性过程进行评估，该过程结合了显性与隐性动作，使用身体模型，并与熟练导师进行协作互动。尽管图中将负责产生显性动作的“身体”与负责处理隐性（心理）动作的“身体图式”（body-schema）表示为不同的模块，但我们必须记住，根据动作神经模拟理论，它们实际上是在同一计算模块中整合并实现这两类功能的。

具身认知与计算节俭性

总结上一节的分析，我们强调：人类认知植根于第一人称（自传式）的人类经验，其特征是嵌入性（embedded）、生成性（enactive）和延展性（extended），基于个体与世界之间持续变化的、具身的、带有情感的互动。相比之下，EAI（具身人工智能）的目标是通过基础模型设计通用型机器人（Hu等，2023），依赖大量预先编码的、通用的、百科全书式的知识，提供的是第三人称（非个人化）的经验，其与环境的具身认知互动程度很低。无论如何，EAI的目标仍遥不可及，甚至对功能开放、通用、超级智能机器人的期待可能只是一种不切实际的梦想。即便是EAI的支持者（Liu 和 Wu，2024）也承认，仍有大量工作要做，因为大型基础模型（LLMs 和 VLMs）可能仅能支持自主智能机器人所需基本认知能力的一部分，仅提供高效的推理能力。

在基于基础模型的框架中，缺失的是关键的“第一人称认知经验”，而这种经验正是使机器人真正实现自主、智能和高效的基础。特别是，有观点指出，EAI机器人必须发展出若干全新的认知模型，包括：由智能体与开放环境的物理互动所驱动的进化式学习过程；能够有效模拟真实世界并与EAI系统互动的虚拟环境的“多宇宙”表征（Hall等，2022）；通过直觉物理模型理解物理世界（如重力概念）的能力（Piloto等，2022）。

总体而言，在当前的发展与理解水平下，基于EAI的机器人可能面临一种深层次的“人格冲突”，即：作为认知核心的、基于第三人称、非具身、离线训练的基础模型，与智能体在真实环境中进行的第一人称、在线互动及其相关训练过程之间的冲突。无法保证这两种共存范式能够避免冲突情境，或在短期和长期内有效解决冲突。相反，发展心理学的研究发现表明，人类的抽象认知技能——如抽象动词的使用或数值推理——从根本上植根于感觉-运动活动，身体经验为符号的形成提供了支架。这一过程使得第一人称知识与第三人称知识得以顺畅整合，正如计算建模研究所提出的那样（Cangelosi 和 Stramandinoli，2018）。

当我们将身体的作用与当前大规模学习架构的局限性进行对比时，其基础性作用变得尤为明显。尽管大型基础模型（无论是LLMs还是VLMs）在语言和视觉任务中表现出色，但在泛化一些看似简单的空间概念方面仍存在困难。例如“高度”、“相对位置”或“可触及性”等概念，人类从婴儿早期通过身体互动便能直观掌握，但对这些模型而言仍难以捉摸，尤其是在机器人应用场景中。例如，通过行为克隆在大量演示数据上训练的机械臂，在熟悉环境中复现已知动作时表现出色。然而，即使是很小的变化——如物体位置轻微移动、桌布图案不同或高度略有变化——都可能导致性能急剧下降，正如Dieter Fox在其题为《机器人GPT在哪里？》的演讲中最近指出的那样（Fox，2024）。这些变化对人类而言可通过具身的空间理解与推理轻松泛化，但对模型而言往往需要重新训练或补充更多示例才能适应，这清楚地说明了缺乏具身性基础和因果理解会严重限制当前AI模型在物理环境中的泛化与适应能力。

被动学习（如LLMs所采用的方式）与我们所倡导的第一人称学习之间的一个根本区别在于所捕捉关系的性质。LLMs在海量语言语料库上训练，已被证明能够出色地提取统计规律性，其中许多反映了语言中深层的关联。这种相关性能力使其能够流畅地解决复杂任务。然而，这种机制与人类（以及具有根本具身训练经验的机器人）通过主动与世界互动而学习的方式截然不同。在第一人称学习中，智能体不仅仅是观察相关性，而是亲身体验因果关系。通过以特定目标为导向执行某个动作并感知其结果，智能体可以建立行为与结果之间的直接联系。这种识别因果机制的能力提供了一种强大的过滤机制，能够将有意义的“行为-结果”关系与偶然的相关性区分开来，这一过程在发展心理学文献中已有充分记录。

根据“干预主义”因果观（Gopnik 和 Schulz，2007），知道X导致Y意味着对X进行干预会引起Y的变化。儿童正是通过有意的干预和对结果的观察来学习因果关系的。到四岁时，儿童已能主动实验以推断因果结构（Schulz 和 Bonawitz，2007），超越了早期皮亚杰理论中仅将动作与其直接结果关联的学习方式（Piaget，1930）。甚至在约24个月大时，婴儿已擅长观察性因果学习：他们不仅模仿或检测事件间的相关性，还能从他人的行为中推断因果关系，并利用这些推断来规划自己的干预行为（Meltzoff 等，2012）。这些发现表明，人类的因果学习能力从很早就根植于具身的、有目的的活动中。关键的是，这种基于因果的理解——源于行动与观察——实现了强大的泛化能力。智能体无需对所有可能的相关性进行暴力匹配，而是能够推理出哪些行为可能产生期望的结果，即使在陌生情境下也是如此。要在人工智能体中复制这种能力，必须将学习扎根于具身的、互动的经验中。否则，跨领域和跨情境的因果知识泛化能力将很可能严重受限。

此外，可以观察到，构成人工智能哲学基础的计算模型本身隐含了难以解决的问题（Clark，1999）：特别是，当心智被要求构建外部世界的详细表征以产生适当的目的性行为时，会出现“信息瓶颈”。问题在于，世界本身不断变化——无论是其内在动态，还是智能体行为所引发的变化——因此，心智系统所面临的计算需求很可能使其无法及时产生适当的行为。这种信息瓶颈的根源在于对环境进行“多宇宙”表征的假设，这也是AI（尤其是EAI）所表现出的“计算浪费”（computational prodigality）的另一个方面，其背后是“暴力穷举”的假设：即训练数据无限、计算资源充足且免费。相反，正如Clark所观察到的，人类在采取有效行动前，所需的世界信息其实相对很少。

视觉，以及一般意义上的对周围环境中近体空间的多感官感知（Di Pellegrino 和 Làdavas，2015；de Vignemont 等，2021），是一种主动的、有目的的、由注意力驱动的过程，而非被动的、高分辨率的虚拟表征。尽管日常生活中隐含的空间意识营造出一种稳定且高度详尽的世界表象的错觉，但这种主观印象（Clark，1997）掩盖了这样一个现实：环境信息实际上是极简且低细节的，而“及时行动”的约束引导着对缺失感知证据的搜索与获取，从而“及时”提取所需信息。这一概念体现了人类双向具身认知的“计算节俭性”（computational frugality）。它避免了昂贵地重建一个详细的世界模型，而是基于一个工作假设：世界本身就是其最佳模型，只需在需要时采样即可。

人类具身认知系统的计算节俭性的另一个关键方面，与“情景记忆”（episodic memory）在人类复杂而多层次的记忆系统中的作用有关（Dickerson 和 Eichenbaum，2010）。情景记忆系统由以大脑内侧颞叶（MTL）为核心的扩展神经回路实现，并与多个皮层和皮层下区域互动：皮层成分负责感知与认知的诸多方面，而MTL系统则介导记忆关联网络的形成与提取，其细节存储于皮层区域中。情景记忆（EMs）与日常生活中发生的特定个人经历相关，由于某些原因（如“例外”的重要性）被单独提取并存储于长期记忆中。从日常感觉-运动流中筛选出这些片段的动机可能多种多样，如好奇心、新奇性检测、情绪驱动、与导师的社会互动等。这些记忆是结构化的信息块，包含关于动作序列和周围环境的时空模式。它们包括一个陈述性成分（可通过直接意识访问并用语言表达）和一个非陈述性成分（如关于所学动作序列的程序性记忆）。

情景记忆是从任何具身认知智能体持续的感觉-运动经验流中提取出的独特样本，并编码于某种关联存储中。感觉-运动智能意味着双重能力：一方面，识别并编码相关或关键事件；另一方面，在给定动作序列中检测与已存储事件的“共鸣”。随后，认知智能体应能快速检索该详细事件，根据具体情境进行调整，并产生相应的程序性行为。无论如何，这一记忆过程并非再现性的，即不是对存储信息的简单“回放”，而是重构性的，即基于情景记忆中存储的关键参数激活一个内部模拟模型。当然，情景记忆远非详细的数字录像，也不需要如此。当从长期记忆中提取以指导行动计划时，它们会根据当前情境和智能体状态进行轻微调整。然而，这种灵活性在极端条件下可能导致回忆失败。这一问题在法医心理学中广为人知（Sarwar等，2004），涉及目击者证词可能存在的矛盾：由于记忆过程的重构性质，在高度情绪压力下，目击者回忆的事件可能被与事实无关的记忆碎片污染。此类问题也会影响大型联想记忆系统（如Hopfield网络，Hopfield，1982），特别是在过载情况下。然而，这并不影响核心问题：即情景记忆系统与程序性记忆相结合，是一种强大的计算节俭机制，使认知智能体能够以最少的信息量和最少的计算资源进行存储与提取。

初步研究已探索了在认知机器人学中系统使用情景记忆的可能性（Mohan等，2014；Vernon等，2015）。我们认为，这是具身认知机器人学中亟待深入研究的关键方向之一。这种方法与基于大型基础模型的EAI方法的主要区别在于：它基于第一人称经验，而非第三人称、预先编码的知识：前者体现的是单个自主智能体的“计算节俭”，后者则是超级智能群体的“计算浪费”。但这并不意味着按照第一人称经验获取原则训练的认知机器人，不能利用书籍、手册、电影或网页浏览器中存储的百科知识，并借助语言工具（如AI基础模型）进行查询。这种（第三人称）知识可用于更新或调整/巩固通过个人经验获得的第一人称“技能”，例如修改情景记忆的特定参数或相关的程序性痕迹。相反的过程——将第一人称知识整合进庞大的第三人称结构中——则既不自然也不现实。

沿着相同的逻辑，我们认为，“计算节俭性”问题可与著名的认识论和哲学概念“奥卡姆剃刀”（Ockham’s razor）相联系，即在寻求科学或哲学问题解释时应遵循认知节俭原则：稳健的解释应以尽可能少的要素构建，即“如无必要，勿增实体”（entia non sunt multiplicanda praeter necessitatem）。

具身认知与延展心灵假说

在前一节中，我们简要讨论了“延展心灵假说”（extended mind hypothesis，Clark 和 Chalmers，1998），该假说涉及具身认知的组织方式，并提出了两个相互关联的延展方向：与物理环境的整合，以及与社会环境的整合。前者涉及具身认知系统必须包含一定程度的关于物理世界动态的“常识知识”，例如物理互动中的因果关系、重力效应等。常识表征与推理曾是20世纪70至80年代符号主义人工智能（又称GOFAI：Good Old-Fashioned AI）的核心议题之一，其研究集中于一类被称为“专家系统”的计算模型。特别是，面向机器人应用的专家系统子集被设计用于实现“定性物理”（qualitative physics，Forbus，1988）：其核心思想是，将传统上用微分方程描述的世界连续属性，用离散的符号系统来表示，从而支持诸如定性模拟和设想（envisioning）等不同形式的推理。然而，这一方法在常识推理方面的成效有限，在自主机器人领域的应用也较少。

近年来，随着联结主义人工智能扩展至基础模型层面，这一议题以“直觉物理”（intuitive physics）的名义被重新探讨（Piloto 等，2022）：它被构想为一个专注于发现宏观物体在现实世界中互动背后隐藏原理的概念网络。所建议的方法是使用VLMs（视觉语言模型）类型的基础模型，例如PLATO（Physics Learning through Auto-encoding and Tracking Objects）。PLATO是一种基础模型，通过大量展示物体按物理定律互动的视频进行训练。为简化起见，这些视频由模拟实验生成，而非来自真实观察现象。这一庞大的数据集被用于训练大型深度网络，使其获得对物理世界动态的某种常识性理解，可用于推理与前瞻性判断。

然而，无论是定性物理还是直觉物理模型，尽管方法不同、复杂程度各异，它们都未能实现EAI的目标——即设计出自主、智能、协作的机器人，因为它们无法实现一个与认知智能体在特定环境中以明确功能运行时所获得的第一人称经验完全整合的具身认知架构。与PLATO相对的替代方案是生物启发式的：它利用“认知的模拟理论”（simulation theory of cognition），监督认知智能体在现实生活情境中以及与人类或机器人伙伴合作时所执行的真实与虚拟的感觉-运动模式。因此，用于开发或更新能够实现对物理直觉理解的神经模型的训练数据，是由认知智能体自身生成的：对物理、环境动态以及身体-环境互动的直觉理解，均以第一人称的方式隐式实现。此外，这种第一人称方法将主动的协同形成与学习所需的数据准备（包括训练基础模型的关键步骤——标注）结合起来，而标注正是基础模型训练中的“阿喀琉斯之踵”。

基于与环境的主动物理互动的“延展心灵假说”中的直觉物理成分，也可被视为一种计算节俭的策略：其数据积累遵循“按需获取”的原则，而非普遍性地大量采集，而是以个性化方式为特定认知智能体自动生成所需数据量。

从生物启发的角度，我们认为，延展心灵假说的扩展——即通过自我训练实现的扩展——是发展过程的结果，该过程按照皮亚杰理论分层组织，逐步提升对直觉物理的理解水平。我们也可以设想，当认知能力达到较高水平（包括足够的语言能力）时，认知智能体可能主动通过查询基于大规模百科数据集训练的商用基础模型，来获取第三人称知识。例如，基础模型提供的答案可帮助智能体从多个与其过往经验一致的动作序列中选择其一，并将该信息整合进相应的情景记忆中。

关于延展心灵假说的社会性延展，我们应关注运动神经科学与认知神经科学交叉领域的广泛研究，即大量实验研究强调：负责产生显性与隐性动作的运动系统，也深度参与典型的认知功能，如动作观察、模仿和社会互动（Fadiga 等，1995；Fadiga 等，2002；Iacoboni 等，1999；Grezes 等，2001），甚至包括更抽象意义上的动作相关活动，如手动工具的观察或动作动词的使用（Martin 等，1996；Grafton 等，1997）。尽管这些研究最初主要旨在理解人类个体与环境的互动，或人与人之间的互动，但我们认为，这些发现可自然地延伸至自主、智能、协作机器人的设计中。

我们可以将运动系统与认知系统视为构成一对等效的回路：一个与显性动作相关，另一个与隐性动作相关。在前者中，运动指令引发肌肉收缩，并产生相应的感官反馈，进而影响未来运动指令的控制；在后者中，运动意图激活一个内部身体图式，并产生相应的感官预测，进而影响未来动作计划的意动（ideomotor）形成（Mohan 等，2019）。当一个人（新手）与另一个人（专家）互动时，我们可以设想一个类似的附加回路，即“社会互动回路”，其中“被控对象”是他人，而非自身身体的实际或想象运动。例如，当新手试图模仿专家，或专家通过间歇性干预监督并指导新手的行为时，社会互动回路便得以实例化。因此，在社会互动中，通过控制他人而非自身身体，我们可以估计他人的隐藏状态（包括其心理状态），而不是我们自身的身体状态（Wolpert 等，2003）。换句话说，表征社会互动的控制信号可被视为交流行为，包括言语、手势和触觉互动。

采用这一路径作为完整具身人工智能发展路线图的主要动机之一在于，它在非常广泛的意义上高度契合人与机器人伙伴之间“相互理解”的需求。为机器人配备基于第一人称经验的认知架构，可使人与机器人智能体之间产生一种认知兼容性。当双方共享相似的发展原则——如感觉-运动经验的渐进积累、情景记忆的形成以及以动作为导向的推理——人类伙伴就更有可能理解机器人行为背后的逻辑，包括其错误。这种兼容性在实现更自然、更有效的机器人教育过程中可发挥关键作用（Matarese 等，2021）。在这种情境下，人类能更轻松地解读机器人的错误，并以机器人能够有意义地吸收的方式提供纠正性反馈。结果，机器人的学习过程变得更加透明、可解释，最终也更高效。反之，当轮到机器人提供建议或协助时，其行为更可能被人类视为可理解且可信的（Matarese 等，2023）。这种兼容性不仅有助于纠正感觉-运动错误或完善实践技能，还为涉及抽象和文化嵌入概念的更丰富教育过程打开了大门，包括对“适当”或“不适当”行为的认知。换句话说，我们不仅能够教会机器人“如何做某事”，还能教会它“是否应该做某事”——基于教师的价值观。正如儿童通过榜样和模仿在特定家庭或文化中学习对错一样，具备具身认知架构的机器人也可能对类似的道德或规范性指导产生响应（Sandini 等，2024）。即使在跨物种学习（如训练狗）的情况下，尽管存在明显的交流不对称，过程仍能成功，因为动物通过具身互动和情境强化进行学习。类似的动力机制也可设想应用于人机互动中，前提是机器人的认知扎根于第一人称经验，并能据此组织知识。相比之下，对于在抽象的、第三人称数据上离线训练的被动AI系统而言，这种可能性几乎无法实现，因为将普适伦理规则编码为系统知识，本身就是一个定义不清且可能无法解决的问题。

此外，这也是一条整合第一人称经验学习与第三人称互动（从网络查询到人类教育与辅导）的发展路径。具身认知的教育意义（Hegna 和 Ørbæk，2021）也在《哲学汇刊B》（Philosophical Transactions B）的一期专题“运动中的心灵：人工智能时代的具身认知”中得到深入探讨（Barrett 和 Stout，2024）。在承认“具身性”作为认知研究统一概念的基础上，该研究聚焦于两个关键主题：语言在认知中的作用及其与身体的纠缠，以及在社会归属、教学与学习领域中人际感知与协调的多种身体机制。在这两个主题中，AI语言模型均可成为机器人训练的有力工具。

结论

总结本篇观点文章，我们可以说，设计将渗透社会、推动社会技术重构的自主、智能、协作机器人的发展路线，可依据以下原则来界定：

具备与人类相对应的功能等效的完全具身认知架构；
学习与训练基于前瞻性（prospection）能力，并通过在情景记忆中积累第一人称经验来实现；
社会互动在获取第三人称信息、定义与目标性能相匹配的智能水平方面具有关键作用，该智能通过感觉-运动-认知发展过程实现；
人机协作应遵循以下原则：机器人自主性的边界，最终由人类伙伴和/或更广泛的社会环境承担责任。

总体而言，我们认为，从科学和经济的角度来看，追求单一设计目标——即制造一种超级智能机器人，并期望其能轻松适应各种符合社会需求的应用范式——是不合理的。在许多情况下，这种设计可能过于强大，造成计算资源的浪费；而在某些特定情境下，又可能能力不足。我们建议采用一种计算节俭的架构：初始配置保持最小化，通过在组织良好的社会环境中进行学习与训练逐步“成长”。这种最小化架构可被视为对布赖滕贝格“车辆”范式（Braitenberg, 1984）的扩展，并在自组织与自训练的背景下发展而成。此外，我们完全赞同Lake等人（2017）的观点：这类机器应被设计为像人类一样学习和思考。

另一条发展路线由人工智能公司推动，依赖于大型语言模型（LLMs）持续不断的技术进步，以理解人类指令，并使用自然语言沟通行动计划。一个最新的例子是谷歌DeepMind开发的新型模型“Gemini Robotics”（Gemini Robotics团队，Google DeepMind，2025），该模型将其最先进的大型语言模型与机器人技术相结合。其目标是赋予机器人更高的灵巧性，并在不同任务间实现泛化，利用LLMs的泛化能力（例如，在特定情境中推理应采取哪些行动）。然而，Gemini机器人与大多数LLMs的训练方式类似，即依赖互联网上的文本、图像和视频，或由仿真模型生成的合成数据，而没有个人经验的积累，也缺乏第一人称知识。Gemini Robotics系列的明确理念是开发通用型机器人，以实现人工智能在物理世界中的潜力。尽管已有显著的性能案例记录在案，但我们认为，这条路线并不适合在多种质性不同的场景中大规模普及协作型认知代理，例如机器人教师、机器人助手、机器人伴侣等。在这些场景中，关键特征可能并未编码于大规模的文本、图像、视频或合成数据集中，而是隐藏在与人类伙伴的触觉互动、触觉引导和手势等非语言交流之中，从而促成机器人与人类协作伙伴之间共享的具身认知的关键发展。

本文作者所在的研究团队十余年来一直致力于按照基于具身认知的生物启发式路线，设计自主、智能、协作机器人的各项基础模块。具体研究重点包括：前瞻性、身体图式学习、动作的具身模拟、模仿学习、情景记忆、物理交互理解、基于具身交流的社会认知以及发展性学习（Lungarella等，2003；Mohan 和 Morasso，2007；Metta等，2010；Mohan等，2011, 2013, 2014；Vernon等，2015；Bhat等，2016；Bhat等，2017；Sciutti 和 Sandini，2017；Sandini等，2018, 2024；Pasquali等，2025）。目前，我们仍未能建立一个可将上述各类基础模块以灵活、自组织方式集成的实现框架。我们认为，这样的框架应是混合型的，结合数字、模拟、符号与亚符号表征，类似于我们对人类具身认知架构的现有认知。无论如何，我们坚信，所提出的这一发展路线天然适合应对伦理问题与社会影响，因为其核心设计目标是尽可能促进机器人与人类伙伴之间共享的具身认知。

原文链接：https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1608014/full

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-09-07，如有侵权请联系 cloudcommunity@tencent.com 删除

框架