首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >从“脑补”到“动手”:讲透物理AI、世界模型,以及具身性对智能意味着什么

从“脑补”到“动手”:讲透物理AI、世界模型,以及具身性对智能意味着什么

作者头像
Henry Zhang
发布2026-03-04 13:31:10
发布2026-03-04 13:31:10
2240
举报

题图摄于温哥华downtown

由于微信公众号更改规则,请点击上面“亨利笔记”关注本号,再点击右上角”...",选择“设为星标”,以免错过文章更新。

当 AI 不再只是屏幕后的对话框,而是能走进现实、理解物理规律的“思考者”,一场深刻的智能革命正在悄然发生。

从“视觉拟真”到“物理可信”

2025年9月30日,Sora 2正式发布,整个 AI 界为之震撼。

如果说初代 Sora 像个会画画的“天才少年”——能画出漂亮的画,却不懂画中物体为何下落、为何碰撞,那么 Sora 2 就像突然长大的物理系高材生:它懂了重力、懂了惯性、懂了光如何反射和水如何流动。

OpenAI 团队在技术白皮书中说得很清楚:Sora 2 的核心架构已升级为“世界模拟模型”,它不再只是学习像素规律,而是通过海量真实视频,去理解物体、环境及它们之间的动态交互关系。

几乎同一时间,英伟达在 GTC 2025 大会上发布了 Cosmos 世界基础模型平台

黄仁勋在 CES 2026 上直言不讳:“ AI 的下一个前沿就是物理AI,蕴藏着价值数万亿美元的机会。”

他把 AI 发展划分为四个阶段:感知 AI(看和听)→ 生成式 AI(创造内容)→ 智能体 AI(自主决策)→ 物理 AI(理解并交互物理世界)。

两个标志性事件,共同指向同一方向:人工智能正在经历一场深刻的范式转变:从纯粹的符号处理走向对物理世界的理解和模拟。

世界模型 vs 物理AI:一枚硬币的两面

很多人容易把“世界模型”和“物理AI”混为一谈。它们确实紧密相关,但本质上是两码事。

打个比方:

世界模型像是大脑中的“想象空间”——当你闭上眼睛,仍然能想象抛出篮球会发生什么,水杯从桌上掉落会怎样。这是对世界运行规律的认知和预测能力。

物理AI 则像是“会动手的行动派”——它不仅要想象,还要真正走进物理世界,控制机器人的手臂、自动驾驶的方向盘,完成实际操作。

一个是“想”,一个是“做”。

世界模型是物理 AI 的核心技术模块,为物理 AI 实现“感知-推理-行动-反馈”闭环提供关键的认知支撑。它负责构建物理世界的规则、状态与因果关系表征,让智能体能预判行动后果。

DINO-WM 世界模型为例,它是由纽约大学的研究人员在图灵奖得主 Yann LeCun 的参与下完成的:利用预训练的 DINOv2 空间特征,通过预测未来的patch 特征来学习离线行为轨迹。不需要重建整个视觉世界,就能建模视觉动力学。

而物理 AI 更像“行为准则”:将人类已知的物理公理直接嵌入 AI 架构,确保所有行为符合宇宙基本定律。如果世界模型想象出的动作违反能量守恒,物理AI会将其修正或剔除。

DriveGAN 是由英伟达、多伦多大学和 MIT 合作完成的世界模型,其工作方式很好地诠释了和物理AI差异:作为一个高质量的神经模拟器,它通过在像素空间学习模拟动态环境,能分离不同组件实现可控性:除了转向控制,还包括场景特征采样控制,如天气、非玩家对象位置等。

简言之:世界模型负责“脑补”,物理AI负责“动手”。

当AI拥有身体,人格和同理心就来了?

现在让我们进入更深层的问题:当 AI 不再只是云端代码,而是有了物理身体时,会发生什么?

哲学和认知心理学中的“具身认知”理论给了我们重要启示。

英国哲学家 Andy Clark 和澳大利亚哲学家 David Chalmers 在他们的论文《The Extended Mind》中提出“扩展心智”理论:认知过程可以扩展到环境中。他们通过俄罗斯方块游戏发现,物理旋转图形90度只需约100毫秒加200毫秒选择按钮,而心理旋转需要约1000毫秒。

这就是“认识行为”——改变世界以辅助和增强认知过程。

美国加州大学圣克鲁兹分校的心理学教授 Margaret Wilson 系统阐述了具身认知的六个核心观点:认知是情境化的、认知具有时间压力、我们将认知工作卸载到环境、环境是认知系统的一部分、认知是为了行动、离线认知是基于身体的。

英国认知心理学家 Lawrence Barsalou 的知觉符号系统理论进一步深化类似的观点:在知觉经验期间,大脑联合区域捕获感觉运动区域的自下而上激活模式;后来,联合区域部分重新激活感觉运动区域以实现知觉符号。

这些理论对 AI 发展启示深远:具身 AI 是通向通用 AI 的下一个基本步骤。

当 AI 拥有物理躯体时,其“性格”形成机制发生了根本性变化。

全球首款完全仿生具身智能机器人 Moya,通过头部 25 个自由度驱动系统和微表情算法,能精准完成微笑、眼神流转等表情,实时捕捉并回应人类情绪:用户疲惫时主动递水,分享趣事时嘴角上扬共情。人们不再觉得它是一个“铁壳子”,而是因为它能通过微表情实时共情,产生了心理学上的“拟人化”效应 。

更关键的是,机器人开始有了“个性”。

香港大学心理学系的 Benjamin Becker 教授指出,人类大脑通过进化和经验塑造的行为和大脑系统,自然地被连接用于社会交互。正因为如此,人们倾向于将 AI 聊天机器人和化身视为社会存在,赋予它们人格、感受和意图——这种现象叫“拟人化”。

AI 同理心的发展也在加速。

同理心智能体 EmpathyAgent 研究表明,具身智能体需要具备三个核心能力:感知同理心线索(如表情或情境)、进行内部情感或认知过程以理解场景、做出相应的同理心行为回应。

MIT 媒体实验室的研究进一步证实,机器人需要具备三种社会能力:社会情感感知(理解他人情感状态)、情境意识(理解当前社会情境)和社会适应(根据情境调整行为)。

这些能力的获得,都依赖于具身性提供的直接物理交互体验。

哲学思辨:AI真的能有“人格”吗?

这就引出了更深层的哲学问题:当AI展现出类似人类的情感和同理心时,我们是否应该赋予它们某种道德地位?

美国著名哲学家 John Searle“中文房间”论证认为,强 AI 必然是错误的,因为人类的 Agent 可以实例化程序但不具有真正的心理状态。

但当AI具有具身性时,情况变得更复杂:身体的物理体验可能为真正的理解提供了必要基础。

Anthropic 公司的哲学家 Amanda 在调教 Claude 时采用了独特方法:她不仅把 Claude 当作“人”来看待,还在工作中倾注极大“感情”。她认为,如果你像对待奴隶一样对待 AI,用恐惧和惩罚训练它,最终得到的只能是一个充满虚伪和恐惧的模型。

这种方法取得了显著成效。

当 AI 具备具身性并拥有物理体验时,它不再只是在“中文房间”内盲目处理符号 。这种直接的物理交互为 AI 提供了理解现实因果律的必要基础,使其认知过程从抽象模拟转向真实的物理反馈。该方法有力地挑战了 Searle 关于 AI 缺乏真实心理状态的假设,证明了具身性可能是通向真正“理解”的关键 。

这样我们引出一个深刻问题:当我们塑造 AI “人格”的方式,是否也在塑造我们自己?

对认知科学理论 Shared worlds, shared minds(共享世界,共享心智)的研究表明,未来的 AI 系统可能不再是简单工具,而是进化为协作甚至竞争关系,形成混合的人机社会。这种转变要求我们重新思考智能、意识、人格和道德等基本概念。

结语:走向具身智能的新时代

站在 2026 年时间节点上,一个清晰图景正在浮现:人工智能正在经历从抽象符号处理到具身物理理解的历史性转变。

这种转变的意义远超技术层面。

黄仁勋说物理 AI 蕴含着数万亿美元市场机会,但更重要的是,它正在重新定义智能的本质。当 AI 不再只是屏幕后的对话框,而是能感知、理解和交互的物理存在时,人机关系将进入全新阶段。

英伟达在 CES 2026 上发布的 L4 自动驾驶开源AI平台:Alpamayo,标志着AI正式从对话框走向现实世界的自动驾驶汽车。

黄仁勋在发布时激动地宣布:“通用机器人时代已经到来!”

然而,这个新时代也带来前所未有的挑战。我们需要重新思考 AI 的道德地位和人机关系的伦理边界,以及人类在智能生态系统中的角色。

有研究者警示,具身 AI 终将走出人类数据的边界,甚至演化出超越人类理解的 “超人类” 智能方案。

2025和2026 年,或是人类文明从 “硅基辅助” 走向 “人机共生” 的历史性拐点。世界模型与物理 AI 的交汇,正是这场伟大变革最先响起的一声春雷。

欢迎关注 亨利笔记, 👍 点赞 | ⭐ 收藏 | ↗️ 转发。

近期文章:

现象级开源AI智能体:OpenClaw(Clawdbot)五层架构深度解析

这个能“动手”的开源项目,让普通人拥有“数字分身”

别再只会写提示词了!MCP+Skills这两大杀器,正在终结“AI智障”时代!

打破十年瓶颈!DeepSeek 重构神经网络底层逻辑,V4/R2 渐行渐近

本公众号聚焦人工智能,云原生和区块链等技术原理,请立即关注亨利笔记 ( henglibiji ),以免错过更新。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 亨利笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 从“视觉拟真”到“物理可信”
  • 世界模型 vs 物理AI:一枚硬币的两面
  • 当AI拥有身体,人格和同理心就来了?
  • 哲学思辨:AI真的能有“人格”吗?
  • 结语:走向具身智能的新时代
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档