简单来说,你只需要对RT-2画个饼,之后就可以等着RT-2把饼喂到你嘴边了。 网友们纷纷表示:这真是泰酷辣! 但俗话说,一口吃不成个大胖子,在RT-2成为RT-2之前,它的前辈Robotic Transformer 1 (RT-1)为RT-2打下了坚实的基础。 在RT-1基础上升级过的RT-2仍以VLM 为基础,是谷歌研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。 但RT-2比RT-1多了一个机器动作(action)的模态。 为了解决模型对机器控制的挑战,研究人员将RT-2的机器操作设置为模型的输出标记,并将其描述为可以由标准自然语言标记器处理的字符串,如下所示: RT-2 训练中使用的动作字符串的表示形式。 RT-2架构和训练:针对机器人和网络数据共同微调预训练的VLM模型。
RT-2 使用经过精调的 LLM 来输出运动控制命令。它可以执行训练数据中未明确包含的任务,并在新出现技能评估中将基线模型的表现提升了 3 倍。 根据 DeepMind 的说法, RT-2 不仅展示了人工智能的进步如何迅速地渗透到机器人领域,它还展示了更多通用型机器人的巨大潜力。 RT-2 在之前的实现 RT-1 的基础上进行了改进。RT 系列的关键思想是训练一个模型直接输出机器人指令,而不是输出运动的更高级抽象。RT-2 和 RT-1 都接受图像和任务的文本描述作为输入。 团队将 RT-2 在三个任务类别上进行了测试:符号理解、推理和人类识别。与基准模型相比,RT-2 取得了“超过最佳基准模型平均成功率 3 倍以上”的成绩。 尽管 RT-2 尚未开源,但 RT-1 的代码和数据已经公开。
机器之心报道 编辑:张倩、小舟 RT-H 在一系列机器人任务中的表现都优于 RT-2。 最终,他们证明了 RT-H 中的语言动作能够更好地适应场景和物体变化,相比于 RT-2 展现出了更优的泛化性能。 RT-H 使用 VLM 主干网络并遵循 RT-2 的训练过程来进行实例化。与 RT-2 类似,RT-H 通过协同训练利用了互联网规模数据中自然语言和图像处理方面的大量先验知识。 该数据集结合了以下数据集: Kitchen:RT-1 和 RT-2 使用的数据集,由 70K 样本中的 6 个语义任务类别组成。 RT-H 的 MSE 比 RT-2 低大约 20%,RTH-Joint 的 MSE 比 RT-2 低 5-10%,这表明行动层级有助于改进大型多任务数据集中的离线行动预测。
所以,RT-2究竟能实现什么样的效果,这研究又具体是怎么一回事儿? 第二个能力是“推理”,这也是RT-2的核心优势,要求机器人掌握数学、视觉推理和多语言理解三大技能。 在实际测试中(一共历经6000次),作者给了RT-2许多以前未见过的物体,需要RT-2在微调数据之外进行语义理解来完成任务。 (稍显遗憾的是,我们还没看到它和其他团队最新基于LLM的机器人方法进行对比) 而为了更好地理解RT-2的不同设置如何影响泛化结果,作者又设计了两大类评估: 一是在模型尺寸上,仅在RT-2 PaLI-X变体分别采用 最后,由于RT-2 PaLM-E变体是一个视觉-语言-动作模型,可以在单个神经网络中充当LLM、VLM和机器人控制器,因此RT-2还可以执行可控的思想链推理。
RT-2 是如何实现的? DeepMind 这个 RT-2 拆开了读就是 Robotic Transformer —— 机器人的 transformer 模型。 实验 研究人员对 RT-2 模型进行了一系列定性和定量实验。 下图展示了 RT-2 在语义理解和基本推理方面的性能。 下图表明在四个基准测试上,RT-2 模型优于之前的 RT-1 和视觉预训练 (VC-1) 基线。 RT-2 保留了机器人在原始任务上的性能,并提高了机器人在以前未见过场景中的性能,从 RT-1 的 32% 提高到 62%。 不过谷歌没有立即应用 RT-2 机器人的计划,只表示研究人员相信这些能理解人话的机器人绝不只会停留在展示能力的层面上。
2 个多月前,谷歌 DeepMind 推出了第一个控制机器人的视觉 - 语言 - 动作(VLA)模型 ——RT-2。 当时,一位谷歌高管称,RT-2 是机器人制造和编程方式的重大飞跃。「由于这一变化,我们不得不重新考虑我们的整个研究规划了。」 此外,他们还在 RT-2 上训练 RT-2-X,其中 RT-2 是一系列大型视觉语言动作模型 (VLA),在互联网规模的视觉和语言数据以及机器人控制数据上训练而成。 这些实验涉及 RT-2 数据集中不存在的对象和技能,但这些对象和技能存在于另一个机器人的数据集中。结果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型 RT-2 的三倍。 一系列结果表明,RT-2-X 实现了 RT-2 以前无法实现的技能,包括对空间更好的理解。
7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。 只需要向对话一样下达命令,它就能在一堆图片中辨认出霉霉,送给她一罐「快乐水」。 在 RT-2 之后,谷歌 DeepMind 又提出了 Q-Transformer,机器人界也有了自己的 Transformer 。 RT-2 发布仅两个月,又迎来了机器人的 ImageNet 时刻。 谷歌团队开发的 RT 神经网络架构已被用于最新的机器人控制系统,包括 RT-2 模型。 当 SARA-RT 应用于拥有数十亿个参数的 SOTA RT-2 模型,它能在各种机器人任务中实现更快的决策和更好的性能: 用于操纵任务的 SARA-RT-2 模型。
从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 VLA超进化 谷歌RT-2成关键节点 若想破除这一疑问,前提是必须理解VLA模型的重要性。 VLA范式正式确立 经过四个多月迭代后,23年7月,谷歌DeepMind的RT-2正式上线,明确提出了VLA概念。 RT-2首创性地将机器人动作离散化为文本token,与视觉语言数据联合训练。 RT-2在未见任务上实现了超50%的成功率 这一刻,标志着VLA范式的正式确立,开启了「大模型驱动机器人控制」的新方向。 尽管RT-2这类VLA可以处理一些基本任务,但还有两个痛点: (1)面对复杂任务,推理能力不足; (2)在微调和推断上,算力成本太高。
但是RT-2的微调数据任务的action还是太简单了,只有抓取,移动,控制。 所以谷歌联合多个实验室,经过大半年提出Open X Embodiment数据集,Action动作集扩大到527,并提出RT-X~下面介绍RT-2和RT-XRT-2论文: RT-2: Vision-Language-Action 其中注意,RT-2 与标准 VLM 之间的一个重要区别是,RT-2 必须输出有效的动作token才能在真实机器人上执行。 RT-2介绍了如何通过将 VLM 预训练与机器人数据相结合来训练VLA模型,验证了再机器人领域能够利用VLM模型的能力来提升VLA模型的泛化能力。 其中输出模块和RT-2思路也一致,将每个动作离散化,并归一化到(-1,1)区间,离散化到255个区间,还有一个终止token。
有了这个模型,机器人执行从未见过的任务的成功率直接提高了1倍之多(相比谷歌的基础机器人模型RT-2,从29%=>63%)。 将SARA-RT应用于具有数十亿参数的RT-2模型时,后者可以在各种任务上实现更快的操作速度以及更高的准确率。 好消息,除了RT-Trajectory只上线论文以外,其余都是代码和论文一并公布,欢迎大家进一步查阅~ One More Thing 说起谷歌机器人,就不得不提RT-2(本文的所有成果也都建立之上)。
Google DeepMind 建立了一个先进的机器人基础模型——Robotic Transformer 2(RT-2),其可以操作移动机械臂。 得益于在线训练,RT-2 可以按照指令进行操作,即使这些指令超出了机器人以前见过的其他机器人的操作范围。 例如,当被要求将饮料罐移到 Taylor Swift 的照片上时,RT-2 可以成功完成,尽管 Swift 的照片并没有出现在 RT-2 接受训练的 130000 次演示中。
这些新成果全部用于升级谷歌的机器人大模型RT-2。 和斯坦福的Mobile ALOHA对比起来,谷歌的RT-2表现还是高冷一些,但它所有效果都是全自主的。
新智元报道 编辑:编辑部 【新智元导读】今天,银河通用机器人发布了端到端具身抓取基础大模型「GraspVLA」,全球第一个预训练完全基于仿真合成大数据的具身大模型,展现出了比OpenVLA、π0、RT 作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。 作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。
DeepMind重量级突破 谷歌 DeepMind 最近宣布推出了全球首个控制机器人的视觉-语言-动作(VLA)模型,名为RT-2。 RT-2基于大型语言模型的研究进展,结合网络和机器人数据进行训练,使得该模型能够理解英语以外的指令。 谷歌 DeepMind 的机器人技术主管 Vincent Vanhoucke 表示,RT-2标志着机器人制造和编程方式的重大飞跃,他称之为"我们的整个研究规划的一次重新考虑",并表示之前的很多工作都因此成为无用功
特斯拉的OptimusV3和谷歌RT-2/RT-X系列,都在用端到端神经网络直接从传感器→动作→下一帧状态的闭环预测。3.运动控制与规划传统工业机器人靠精确编程+示教,现在是“语言→动作”的端到端。
GPT-4等基础模型,也已用于机器人技术,取得了一些进展,比如谷歌的机器人RT-2和RoboCat。 RT-2是一种用于机器人控制的AI模型,可以从机器人和网络数据中学习。 在6000多次机器人测试中,RT-2在未经训练的任务中的成功率,几乎是其前身的两倍。 另一方面,RoboCat是一种AI,可以生成训练数据,以改善机器人的控制。
引言 引言部分进一步阐述了机器人学习领域的近期进展,包括专门的动作策略模型(如ACT、Diffusion Policy、3D Diffusion Policy)和视觉-语言-动作(VLA)模型(如RT- 另一方面,VLA模型如RT-2、OpenVLA、RDT、π₀、π0.5等将视觉理解、语言理解和动作生成统一在一个架构中,实现了指令跟随和跨具身泛化能力。
从斯坦福大学的 VIMA 机器人智能体,到谷歌 DeepMind 推出首个控制机器人的视觉 - 语言 - 动作(VLA)的模型 RT-2,大模型加持的机器人研究备受关注。
eureka-research.github.io/ 代码链接:https://github.com/eureka-research/Eureka 论文概览 大型语言模型(LLM)在机器人任务的高级语义规划方面表现出色(比如谷歌的 SayCan、RT 谷歌的 RT-2 机器人。
从谷歌的RT-2到各类开源VLA模型,这些技术正推动机器人进入一个全新的智能时代。然而,随着能力的提升,安全隐患也日益凸显。