从“脑补”到“动手”：讲透物理AI、世界模型，以及具身性对智能意味着什么

Henry Zhang

发布于 2026-03-04 13:31:10

2240

题图摄于温哥华downtown

由于微信公众号更改规则，请点击上面“亨利笔记”关注本号，再点击右上角”..."，选择“设为星标”，以免错过文章更新。

当 AI 不再只是屏幕后的对话框，而是能走进现实、理解物理规律的“思考者”，一场深刻的智能革命正在悄然发生。

从“视觉拟真”到“物理可信”

2025年9月30日，Sora 2正式发布，整个 AI 界为之震撼。

如果说初代 Sora 像个会画画的“天才少年”——能画出漂亮的画，却不懂画中物体为何下落、为何碰撞，那么 Sora 2 就像突然长大的物理系高材生：它懂了重力、懂了惯性、懂了光如何反射和水如何流动。

OpenAI 团队在技术白皮书中说得很清楚：Sora 2 的核心架构已升级为“世界模拟模型”，它不再只是学习像素规律，而是通过海量真实视频，去理解物体、环境及它们之间的动态交互关系。

几乎同一时间，英伟达在 GTC 2025 大会上发布了 Cosmos 世界基础模型平台。

黄仁勋在 CES 2026 上直言不讳：“ AI 的下一个前沿就是物理AI，蕴藏着价值数万亿美元的机会。”

他把 AI 发展划分为四个阶段：感知 AI（看和听）→ 生成式 AI（创造内容）→ 智能体 AI（自主决策）→ 物理 AI（理解并交互物理世界）。

两个标志性事件，共同指向同一方向：人工智能正在经历一场深刻的范式转变：从纯粹的符号处理走向对物理世界的理解和模拟。

世界模型 vs 物理AI：一枚硬币的两面

很多人容易把“世界模型”和“物理AI”混为一谈。它们确实紧密相关，但本质上是两码事。

打个比方：

世界模型像是大脑中的“想象空间”——当你闭上眼睛，仍然能想象抛出篮球会发生什么，水杯从桌上掉落会怎样。这是对世界运行规律的认知和预测能力。

物理AI 则像是“会动手的行动派”——它不仅要想象，还要真正走进物理世界，控制机器人的手臂、自动驾驶的方向盘，完成实际操作。

一个是“想”，一个是“做”。

世界模型是物理 AI 的核心技术模块，为物理 AI 实现“感知-推理-行动-反馈”闭环提供关键的认知支撑。它负责构建物理世界的规则、状态与因果关系表征，让智能体能预判行动后果。

以 DINO-WM 世界模型为例，它是由纽约大学的研究人员在图灵奖得主 Yann LeCun 的参与下完成的：利用预训练的 DINOv2 空间特征，通过预测未来的patch 特征来学习离线行为轨迹。不需要重建整个视觉世界，就能建模视觉动力学。

而物理 AI 更像“行为准则”：将人类已知的物理公理直接嵌入 AI 架构，确保所有行为符合宇宙基本定律。如果世界模型想象出的动作违反能量守恒，物理AI会将其修正或剔除。

DriveGAN 是由英伟达、多伦多大学和 MIT 合作完成的世界模型，其工作方式很好地诠释了和物理AI差异：作为一个高质量的神经模拟器，它通过在像素空间学习模拟动态环境，能分离不同组件实现可控性：除了转向控制，还包括场景特征采样控制，如天气、非玩家对象位置等。

简言之：世界模型负责“脑补”，物理AI负责“动手”。

当AI拥有身体，人格和同理心就来了？

现在让我们进入更深层的问题：当 AI 不再只是云端代码，而是有了物理身体时，会发生什么？

哲学和认知心理学中的“具身认知”理论给了我们重要启示。

英国哲学家 Andy Clark 和澳大利亚哲学家 David Chalmers 在他们的论文《The Extended Mind》中提出“扩展心智”理论：认知过程可以扩展到环境中。他们通过俄罗斯方块游戏发现，物理旋转图形90度只需约100毫秒加200毫秒选择按钮，而心理旋转需要约1000毫秒。

这就是“认识行为”——改变世界以辅助和增强认知过程。

美国加州大学圣克鲁兹分校的心理学教授 Margaret Wilson 系统阐述了具身认知的六个核心观点：认知是情境化的、认知具有时间压力、我们将认知工作卸载到环境、环境是认知系统的一部分、认知是为了行动、离线认知是基于身体的。

英国认知心理学家 Lawrence Barsalou 的知觉符号系统理论进一步深化类似的观点：在知觉经验期间，大脑联合区域捕获感觉运动区域的自下而上激活模式；后来，联合区域部分重新激活感觉运动区域以实现知觉符号。

这些理论对 AI 发展启示深远：具身 AI 是通向通用 AI 的下一个基本步骤。

当 AI 拥有物理躯体时，其“性格”形成机制发生了根本性变化。

全球首款完全仿生具身智能机器人 Moya，通过头部 25 个自由度驱动系统和微表情算法，能精准完成微笑、眼神流转等表情，实时捕捉并回应人类情绪：用户疲惫时主动递水，分享趣事时嘴角上扬共情。人们不再觉得它是一个“铁壳子”，而是因为它能通过微表情实时共情，产生了心理学上的“拟人化”效应。

更关键的是，机器人开始有了“个性”。

香港大学心理学系的 Benjamin Becker 教授指出，人类大脑通过进化和经验塑造的行为和大脑系统，自然地被连接用于社会交互。正因为如此，人们倾向于将 AI 聊天机器人和化身视为社会存在，赋予它们人格、感受和意图——这种现象叫“拟人化”。

AI 同理心的发展也在加速。

同理心智能体 EmpathyAgent 研究表明，具身智能体需要具备三个核心能力：感知同理心线索（如表情或情境）、进行内部情感或认知过程以理解场景、做出相应的同理心行为回应。

MIT 媒体实验室的研究进一步证实，机器人需要具备三种社会能力：社会情感感知（理解他人情感状态）、情境意识（理解当前社会情境）和社会适应（根据情境调整行为）。

这些能力的获得，都依赖于具身性提供的直接物理交互体验。

哲学思辨：AI真的能有“人格”吗？

这就引出了更深层的哲学问题：当AI展现出类似人类的情感和同理心时，我们是否应该赋予它们某种道德地位？

美国著名哲学家 John Searle 的“中文房间”论证认为，强 AI 必然是错误的，因为人类的 Agent 可以实例化程序但不具有真正的心理状态。

但当AI具有具身性时，情况变得更复杂：身体的物理体验可能为真正的理解提供了必要基础。

Anthropic 公司的哲学家 Amanda 在调教 Claude 时采用了独特方法：她不仅把 Claude 当作“人”来看待，还在工作中倾注极大“感情”。她认为，如果你像对待奴隶一样对待 AI，用恐惧和惩罚训练它，最终得到的只能是一个充满虚伪和恐惧的模型。

这种方法取得了显著成效。

当 AI 具备具身性并拥有物理体验时，它不再只是在“中文房间”内盲目处理符号。这种直接的物理交互为 AI 提供了理解现实因果律的必要基础，使其认知过程从抽象模拟转向真实的物理反馈。该方法有力地挑战了 Searle 关于 AI 缺乏真实心理状态的假设，证明了具身性可能是通向真正“理解”的关键。

这样我们引出一个深刻问题：当我们塑造 AI “人格”的方式，是否也在塑造我们自己？

对认知科学理论 Shared worlds, shared minds（共享世界，共享心智）的研究表明，未来的 AI 系统可能不再是简单工具，而是进化为协作甚至竞争关系，形成混合的人机社会。这种转变要求我们重新思考智能、意识、人格和道德等基本概念。