基于Sim-to-Real的通用人形机器人技术架构

原创

用户11764306

发布于 2026-04-21 15:25:35

1240

Building Generalist Humanoid Capabilities with NVIDIA Isaac GR00T N1.6 Using a Sim-to-Real Workflow

2026年1月8日

作者：Edith Llontop, Yan Chang, Yuchen Deng

正文

要使机器人具备实用性，它们需要在动态环境中具备跨越感知、规划和全身控制的认知与运动操作能力。构建这类通用机器人需要一个统一仿真、控制和学习的工作流，使机器人在迁移到真实世界之前能够习得复杂技能。

本文介绍某机构Isaac GR00T N1.6，并描述一套从仿真到现实的工作流，该工作流结合了某机构Isaac Lab中的全身强化学习、基于COMPASS的合成数据训练导航，以及使用某机构CUDA加速的视觉建图和同步定位与建图（SLAM）的视觉定位技术。这些组件使机器人能够跨不同实体形态实现运动操作、鲁棒导航和环境感知行为。

视觉-语言-动作与推理

GR00T N1.6是一个多模态视觉-语言-动作（VLA）模型，将来自第一人称摄像头流的视觉观测、机器人状态和自然语言指令整合为统一的策略表征。该模型使用世界模型（如某机构Cosmos Reason），将高层指令分解为基于场景理解的逐步动作规划，以执行真实世界任务。这种架构使GR00T能够通过端到端学习的表征来执行运动和灵巧操作。

GR00T N1.6相比之前版本引入了多项增强，扩展了其能力和实际应用范围：

增强的推理与感知：使用支持原生分辨率的Cosmos-Reason-2B VLM变体，使机器人能够“看清”而不失真，并更好地推理其环境。这一改进带来了更好的场景理解和更可靠的任务分解。
流畅自适应的运动：扩大了2倍的扩散Transformer（32层）和状态相关的动作预测，使得运动更平滑、抖动更少，并能轻松适应位置变化。
改进的跨实体性能：在数千小时的新鲜且多样化的遥操作数据（人形机器人、移动操作臂、双臂机械手）上训练，能够更好地泛化到各种机器人实体。

GR00T N1.6在多种数据集上训练，包括仿真和真实世界数据。仿真数据包含来自BEHAVIOR、RoboCasa以及为GR-1开发的定制仿真环境中的环境和任务演示。真实世界部分集成了在多种机器人平台上收集的演示，包括GR-1（某机构）、G1（某机构）、双臂YAM机械臂、某机构机器人以及DROID数据集。各数据集的定量贡献如下所示。

图1：Isaac GR00T N1.6的训练数据分布

GR00T N1.6包含预训练权重，可用于零样本评估和基本操作原语的验证。当部署到特定实体或任务时，对模型进行微调是有益的。

以下来自机器人学习大会（CoRL）的演示展示了GR00T N1.6在G1人形机器人上执行运动操作任务的实际表现。

视频1：用于机器人训练的神经仿真合成数据

全身RL训练与仿真到现实迁移

仿真中的全身强化学习提供了GR00T N1.6使用并通过其高层VLA策略协调的低层运动智能。在Isaac Lab中使用强化学习训练的全身控制器生成类人的、动态稳定的运动基元，涵盖运动、操作和协调的多接触行为。

这些策略在Isaac Lab和Isaac Sim中进行大规模训练和压力测试，然后零样本迁移到物理人形机器人上，最大限度地减少任务特定的微调，同时保持跨环境和实体形态的鲁棒性。这一仿真到现实的工作流使GR00T的高层VLA能够依赖可靠的全身控制，将其推理重点放在任务排序和场景感知决策上，而非原始的运动稳定性。

GR00T-WholeBodyControl作为全身控制器，提供了GR00T N1.6下的低层运动操作层。使用该控制器，整个技术栈——涵盖高层指令跟随、中层行为组合和低层鲁棒控制——在部署到硬件之前均在仿真中得到验证。

基于合成数据训练的导航

为了在全身控制之上实现目标导向的导航，GR00T N1.6使用由Isaac Lab中的COMPASS生成的大规模合成数据集进行微调，以实现点到点导航。在该设置中，COMPASS充当导航专家，生成跨场景和实体形态的多样化轨迹，用于将GR00T从VLA模型适配为强大的点导航策略。

导航策略在仿真中训练，并通过简单的速度命令暴露给全身控制器，而不是直接生成关节扭矩。这使得低层全身RL策略能够处理平衡和接触，而导航头则专注于真实世界场景中的避障、路径跟踪以及导航-操作交接。在实验中，这一纯合成数据的训练管道实现了零样本仿真到现实的迁移，包括零样本部署到新的物理环境，无需额外收集任务特定数据。

COMPASS是一个新颖的工作流，通过整合模仿学习、残差强化学习和策略蒸馏来开发跨实体移动策略。它已展示了强化学习微调的有效性以及使用Isaac Lab的强零样本仿真到现实性能。

图2：使用COMPASS工作流的GR1机器人

在此基础上，GR00T N1.6 PointNav示例发布版提供了使用COMPASS生成的数据进行导航策略微调和评估的逐步说明和代码，使开发者能够为自己的实体和场景复现并扩展导航技术栈。

视频2：某机构机器人移动工作流与AI模型

基于视觉的定位

基于视觉的定位使GR00T N1.6技术栈能够在大型真实世界环境中使用其全身控制器和导航策略。在全身RL赋予机器人鲁棒的运动操作技能、COMPASS风格的合成数据将GR00T微调为点到点导航后，系统仍需要精确估计机器人的位置，以便指令和航路点与真实坐标对应。

为此，一套以视觉为中心的建图和定位技术栈使用机载摄像头和预建地图来维持低漂移的位姿估计，使机器人指令能够锚定在精确的机器人和物体坐标上。

该视觉建图和定位技术栈构建在某机构Isaac、某机构CUDA-X库以及以下立体深度模型之上：

cuVSLAM：实时视觉-惯性SLAM和里程计库。其里程计提供平滑的车辆速度，其SLAM后端通过闭环校正产生低漂移位姿用于导航。
cuVGL：视觉全局定位库，用于在预建地图中计算初始位姿，用于引导cuVSLAM。
FoundationStereo：用于立体深度估计的基础模型，在不同环境中具有强大的零样本泛化能力。
nvblox：高效的3D感知库，重建环境并生成用于路径规划的2D占用网格地图。

收集环境的立体图像并预建地图，包括cuVSLAM路标地图、cuVGL词袋地图和占用地图。语义位置（如厨房桌子）在占用地图中被识别并用于任务规划。

运行时，cuVGL从预建地图中检索视觉相似的图像对，并从立体对中估计初始位姿。以该位姿作为先验，cuVSLAM将局部路标与预建路标地图匹配以进行定位。成功定位后，cuVSLAM连续跟踪特征并执行基于地图的优化，在导航过程中保持机器人的精确定位。

开发了一套在Isaac ROS中的离线地图创建工作流，用于从ROS bag创建地图，以及用于定位的isaac_ros_visual_slam和isaac_ros_visual_global_localization包。可以使用立体摄像头驱动、图像校正节点、占用地图服务器、cuVSLAM和cuVGL节点在ROS2中创建定位管道。

图3：机器人拾取苹果时的cuVSLAM特征跟踪