深度解读《Do As I Can, Not As I Say》：当大语言模型遇见机器人物理现实

原创

buzzfrog

发布于 2026-04-18 21:49:10

1310

近年来，大型语言模型（LLM）在自然语言处理领域取得了令人瞩目的成就。然而，如何让这些只在数字世界里“饱读诗书”的模型真正走进现实物理世界，指挥机器人完成复杂的现实任务？

Google Robotics 和 Everyday Robots 联合发表的开创性论文《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》（简称 SayCan）为这一难题提供了一个优雅且高效的解决方案。本文将带您深入剖析这篇论文的核心思想、技术架构及其对多模态人机交互（HRI）领域的深远影响。

一、核心痛点：缺乏物理依据（Physical Grounding）的“纸上谈兵”

大语言模型（如 PaLM、GPT-3）拥有海量的语义知识，能够完美地拆解复杂的高层指令。然而，它们存在一个致命弱点：缺乏现实世界的经验与物理依据（Physical Grounding）。

这意味着，LLM 就像一位被蒙住眼睛的“军师”。当你对它说“我洒了饮料，能帮帮忙吗？”时，LLM 可能会建议“使用吸尘器”。在纯文本逻辑中，这非常合理；但在现实物理场景中，如果厨房里根本没有吸尘器，或者机器人根本没有操作吸尘器的技能，这个完美的计划就成了废纸。简而言之，大模型不知道自己（机器人）的“手”能干什么，也看不见“眼”前的环境。

二、 SayCan 的破局之道：任务依据与世界依据的完美融合

SayCan 的核心思想极为精妙：它充当了连接语言模型的大脑与机器人物理环境的桥梁。具体而言，它将决策过程拆分为两个相辅相成的概率模型：

Say（任务依据 Task-grounding）： 大语言模型负责评估各项基础技能在文本逻辑上对完成指令的有用程度。在数学上，这表示为 $p(l\pi | i)$，即给定用户指令 $i$ 时，技能文本描述 $l\pi$ 成为合理下一步的概率。
Can（世界依据 World-grounding）： 这是 SayCan 的杀手锏。系统为机器人的每项预训练技能（如通过强化学习或行为克隆训练的动作）配备了一个价值函数（Value Function）。在稀疏奖励（成功为1，失败为0）的设定下，价值函数本质上变成了一个启示函数（Affordance Function），它评估的是：在当前具体的物理状态 $s$ 下，执行该技能成功的概率 $p(c\pi | s, l\pi)$。

联合决策机制： SayCan 将上述两个概率直接相乘，计算出每项技能既符合逻辑又具备可行性的综合得分：$\arg\max p(c\pi | s, l\pi) p(l_\pi | i)$。

随后，机器人执行得分最高的动作，将其转化为文本（例如“我会：1. 找到海绵”）追加到对话上下文中，然后不断循环这一过程，直到系统评估出“完成（done）”动作的概率最高为止。

三、实验数据与核心发现：Scaling Laws 在机器人领域的首次印证

研究团队在模拟厨房和真实办公室厨房中，利用搭载 5400 亿参数 PaLM 模型的移动机械臂进行了 101 项长序列、高抽象自然语言指令的测试。

卓越的综合性能： 在模拟环境中，系统取得了 84% 的规划成功率和 74% 的执行成功率；在真实厨房中，规划成功率依然高达 81%，执行成功率为 60%。这证明了系统能够很好地将模拟经验泛化到现实世界。
物理把关人的必要性： 消融实验（Ablation study）表明，如果完全移除价值函数（即没有现实世界的把关，仅听从 LLM），规划成功率会从 84% 暴跌至 67%。这用确凿的数据证明了“Grounding”的重要性。
Scaling Laws 的跨界生效： 论文展现了一个令人振奋的结论——语言模型能力的提升可以按比例转化为机器人现实执行能力的提升。使用 540B 的 PaLM 模型比使用 137B 的 FLAN 模型，将系统的错误率降低了近一半（执行成功率从 61% 提升至 74%）。
零样本涌现能力： 借助 LLM 强大的内在知识，SayCan 展现出极强的泛化能力。例如，通过“思维链（Chain-of-Thought）”提示，它可以处理包含否定词的指令；并且在未经过专门训练的情况下，系统能直接无缝处理中文、法语和西班牙语的指令，规划成功率几乎不打折扣。

四、深度分析：对人机交互（HRI）与具身智能的行业启示

结合当前多模态人机交互（MHRI）领域的最新发展趋势，SayCan 的历史地位与技术启示更为凸显：

1. 推动 HRI 从“状态机硬编码”向“语义泛化”的范式转移

在早期的多模态人机交互系统中，研究者往往需要为每一个可能的交互流程手动设计复杂的行为树或状态机。SayCan 通过引入大模型，彻底改变了这一开发流程。它让机器人摆脱了预设路径的束缚，利用基础模型（Foundation Models）作为零样本规划器（Zero-shot planners），实现了针对开放域自然语言指令的动态响应。

2. 解释性与安全性的平衡

由于大模型的输出具有一定的不可预测性，如何将其应用于物理协作一直是个难题。SayCan 通过 $Say \times Can$ 的数学框架，实质上用物理环境的确定性（价值函数）约束了语言模型的非确定性。不仅如此，其将规划步骤显式地以“1. 找到海绵，2. 捡起海绵...”输出的对话设计，为机器人行为提供了极佳的透明度和可解释性，这对于现实部署至关重要。

3. 局限性与未来演进

尽管表现惊艳，但这篇论文也诚实地指出了目前系统的局限性：

受限于基础技能的上限： SayCan 的能力边界取决于机器人自带的技能库（Skills）。如果动作策略本身存在缺陷，系统同样无法完成任务。
开环规划的盲区： 目前的 SayCan 主要依赖于当前决策步骤的环境反馈，一旦技能执行失败或环境突变，系统较难实现自动纠错和闭环调整。未来的突破口在于结合多模态传感器（如视觉-语言模型 VLM 和眼动跟踪）实现更细粒度的闭环控制与错误修复机制。

结语

《Do As I Can, Not As I Say》不仅仅是一篇机器人领域的顶会论文，它更是“具身人工智能（Embodied AI）”发展史上的一个重要里程碑。它用最直观的比喻和最严谨的实验告诉我们：让 AI 拥有智慧的途径是阅读万卷书（大语言模型），但让 AI 改变现实的前提，是必须让它们脚踏实地，感知物理法则。 随着模型参数的不断扩展和机器人底层硬件的进步，语言与现实的壁垒终将被彻底打破。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

登录后参与评论

0 条评论

热度