
近年来,大型语言模型(LLM)在自然语言处理领域取得了令人瞩目的成就。然而,如何让这些只在数字世界里“饱读诗书”的模型真正走进现实物理世界,指挥机器人完成复杂的现实任务?
Google Robotics 和 Everyday Robots 联合发表的开创性论文《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》(简称 SayCan)为这一难题提供了一个优雅且高效的解决方案。本文将带您深入剖析这篇论文的核心思想、技术架构及其对多模态人机交互(HRI)领域的深远影响。
大语言模型(如 PaLM、GPT-3)拥有海量的语义知识,能够完美地拆解复杂的高层指令。然而,它们存在一个致命弱点:缺乏现实世界的经验与物理依据(Physical Grounding)。
这意味着,LLM 就像一位被蒙住眼睛的“军师”。当你对它说“我洒了饮料,能帮帮忙吗?”时,LLM 可能会建议“使用吸尘器”。在纯文本逻辑中,这非常合理;但在现实物理场景中,如果厨房里根本没有吸尘器,或者机器人根本没有操作吸尘器的技能,这个完美的计划就成了废纸。简而言之,大模型不知道自己(机器人)的“手”能干什么,也看不见“眼”前的环境。
SayCan 的核心思想极为精妙:它充当了连接语言模型的大脑与机器人物理环境的桥梁。具体而言,它将决策过程拆分为两个相辅相成的概率模型:
联合决策机制: SayCan 将上述两个概率直接相乘,计算出每项技能既符合逻辑又具备可行性的综合得分:$\arg\max p(c\pi | s, l\pi) p(l_\pi | i)$。
随后,机器人执行得分最高的动作,将其转化为文本(例如“我会:1. 找到海绵”)追加到对话上下文中,然后不断循环这一过程,直到系统评估出“完成(done)”动作的概率最高为止。
研究团队在模拟厨房和真实办公室厨房中,利用搭载 5400 亿参数 PaLM 模型的移动机械臂进行了 101 项长序列、高抽象自然语言指令的测试。
结合当前多模态人机交互(MHRI)领域的最新发展趋势,SayCan 的历史地位与技术启示更为凸显:
1. 推动 HRI 从“状态机硬编码”向“语义泛化”的范式转移
在早期的多模态人机交互系统中,研究者往往需要为每一个可能的交互流程手动设计复杂的行为树或状态机。SayCan 通过引入大模型,彻底改变了这一开发流程。它让机器人摆脱了预设路径的束缚,利用基础模型(Foundation Models)作为零样本规划器(Zero-shot planners),实现了针对开放域自然语言指令的动态响应。
2. 解释性与安全性的平衡
由于大模型的输出具有一定的不可预测性,如何将其应用于物理协作一直是个难题。SayCan 通过 $Say \times Can$ 的数学框架,实质上用物理环境的确定性(价值函数)约束了语言模型的非确定性。不仅如此,其将规划步骤显式地以“1. 找到海绵,2. 捡起海绵...”输出的对话设计,为机器人行为提供了极佳的透明度和可解释性,这对于现实部署至关重要。
3. 局限性与未来演进
尽管表现惊艳,但这篇论文也诚实地指出了目前系统的局限性:
《Do As I Can, Not As I Say》不仅仅是一篇机器人领域的顶会论文,它更是“具身人工智能(Embodied AI)”发展史上的一个重要里程碑。它用最直观的比喻和最严谨的实验告诉我们:让 AI 拥有智慧的途径是阅读万卷书(大语言模型),但让 AI 改变现实的前提,是必须让它们脚踏实地,感知物理法则。 随着模型参数的不断扩展和机器人底层硬件的进步,语言与现实的壁垒终将被彻底打破。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。