Building Generalist Humanoid Capabilities with NVIDIA Isaac GR00T N1.6 Using a Sim-to-Real Workflow
2026年1月8日
作者:Edith Llontop, Yan Chang, Yuchen Deng
要使机器人具备实用性,它们需要在动态环境中具备跨越感知、规划和全身控制的认知与运动操作能力。构建这类通用机器人需要一个统一仿真、控制和学习的工作流,使机器人在迁移到真实世界之前能够习得复杂技能。
本文介绍某机构Isaac GR00T N1.6,并描述一套从仿真到现实的工作流,该工作流结合了某机构Isaac Lab中的全身强化学习、基于COMPASS的合成数据训练导航,以及使用某机构CUDA加速的视觉建图和同步定位与建图(SLAM)的视觉定位技术。这些组件使机器人能够跨不同实体形态实现运动操作、鲁棒导航和环境感知行为。
GR00T N1.6是一个多模态视觉-语言-动作(VLA)模型,将来自第一人称摄像头流的视觉观测、机器人状态和自然语言指令整合为统一的策略表征。该模型使用世界模型(如某机构Cosmos Reason),将高层指令分解为基于场景理解的逐步动作规划,以执行真实世界任务。这种架构使GR00T能够通过端到端学习的表征来执行运动和灵巧操作。
GR00T N1.6相比之前版本引入了多项增强,扩展了其能力和实际应用范围:
GR00T N1.6在多种数据集上训练,包括仿真和真实世界数据。仿真数据包含来自BEHAVIOR、RoboCasa以及为GR-1开发的定制仿真环境中的环境和任务演示。真实世界部分集成了在多种机器人平台上收集的演示,包括GR-1(某机构)、G1(某机构)、双臂YAM机械臂、某机构机器人以及DROID数据集。各数据集的定量贡献如下所示。
图1:Isaac GR00T N1.6的训练数据分布
GR00T N1.6包含预训练权重,可用于零样本评估和基本操作原语的验证。当部署到特定实体或任务时,对模型进行微调是有益的。
以下来自机器人学习大会(CoRL)的演示展示了GR00T N1.6在G1人形机器人上执行运动操作任务的实际表现。
视频1:用于机器人训练的神经仿真合成数据
仿真中的全身强化学习提供了GR00T N1.6使用并通过其高层VLA策略协调的低层运动智能。在Isaac Lab中使用强化学习训练的全身控制器生成类人的、动态稳定的运动基元,涵盖运动、操作和协调的多接触行为。
这些策略在Isaac Lab和Isaac Sim中进行大规模训练和压力测试,然后零样本迁移到物理人形机器人上,最大限度地减少任务特定的微调,同时保持跨环境和实体形态的鲁棒性。这一仿真到现实的工作流使GR00T的高层VLA能够依赖可靠的全身控制,将其推理重点放在任务排序和场景感知决策上,而非原始的运动稳定性。
GR00T-WholeBodyControl作为全身控制器,提供了GR00T N1.6下的低层运动操作层。使用该控制器,整个技术栈——涵盖高层指令跟随、中层行为组合和低层鲁棒控制——在部署到硬件之前均在仿真中得到验证。
为了在全身控制之上实现目标导向的导航,GR00T N1.6使用由Isaac Lab中的COMPASS生成的大规模合成数据集进行微调,以实现点到点导航。在该设置中,COMPASS充当导航专家,生成跨场景和实体形态的多样化轨迹,用于将GR00T从VLA模型适配为强大的点导航策略。
导航策略在仿真中训练,并通过简单的速度命令暴露给全身控制器,而不是直接生成关节扭矩。这使得低层全身RL策略能够处理平衡和接触,而导航头则专注于真实世界场景中的避障、路径跟踪以及导航-操作交接。在实验中,这一纯合成数据的训练管道实现了零样本仿真到现实的迁移,包括零样本部署到新的物理环境,无需额外收集任务特定数据。
COMPASS是一个新颖的工作流,通过整合模仿学习、残差强化学习和策略蒸馏来开发跨实体移动策略。它已展示了强化学习微调的有效性以及使用Isaac Lab的强零样本仿真到现实性能。
图2:使用COMPASS工作流的GR1机器人
在此基础上,GR00T N1.6 PointNav示例发布版提供了使用COMPASS生成的数据进行导航策略微调和评估的逐步说明和代码,使开发者能够为自己的实体和场景复现并扩展导航技术栈。
视频2:某机构机器人移动工作流与AI模型
基于视觉的定位使GR00T N1.6技术栈能够在大型真实世界环境中使用其全身控制器和导航策略。在全身RL赋予机器人鲁棒的运动操作技能、COMPASS风格的合成数据将GR00T微调为点到点导航后,系统仍需要精确估计机器人的位置,以便指令和航路点与真实坐标对应。
为此,一套以视觉为中心的建图和定位技术栈使用机载摄像头和预建地图来维持低漂移的位姿估计,使机器人指令能够锚定在精确的机器人和物体坐标上。
该视觉建图和定位技术栈构建在某机构Isaac、某机构CUDA-X库以及以下立体深度模型之上:
收集环境的立体图像并预建地图,包括cuVSLAM路标地图、cuVGL词袋地图和占用地图。语义位置(如厨房桌子)在占用地图中被识别并用于任务规划。
运行时,cuVGL从预建地图中检索视觉相似的图像对,并从立体对中估计初始位姿。以该位姿作为先验,cuVSLAM将局部路标与预建路标地图匹配以进行定位。成功定位后,cuVSLAM连续跟踪特征并执行基于地图的优化,在导航过程中保持机器人的精确定位。
开发了一套在Isaac ROS中的离线地图创建工作流,用于从ROS bag创建地图,以及用于定位的isaac_ros_visual_slam和isaac_ros_visual_global_localization包。可以使用立体摄像头驱动、图像校正节点、占用地图服务器、cuVSLAM和cuVGL节点在ROS2中创建定位管道。
图3:机器人拾取苹果时的cuVSLAM特征跟踪
下载与实验:
使用Isaac Lab和某仿真平台进行强化学习和策略训练,使用Isaac Lab配合COMPASS生成合成导航数据
使用Isaac Lab – Arena进行机器人策略评估
使用作为Isaac ROS一部分发布的CUDA-X视觉建图和定位库:
标签: 边缘计算 | 机器人 | 仿真/建模/设计 | 通用 | Cosmos | GR00T | Isaac Lab | 中级技术 | 深度解析FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。