NVIDIA新大招！GR00T N1.7来了，用人形数据让机器人变“灵巧手”

GPUS Lady

发布于 2026-04-24 20:49:32

620

近日，NVIDIA正式发布Isaac GR00T N1.7（EA版）——一款开源、商业授权的视觉-语言-动作（VLA）人形机器人基础模型。该模型秉持一个核心前提：人类数据是机器人智能最具可扩展性的来源，旨在打破传统机器人训练的局限，推动人形机器人在工业及各类场景中的实用化落地。

核心亮点速览

开源且商业授权：作为人形机器人基础模型，现已在Hugging Face和GitHub平台开放，支持商业场景部署。

工业级就绪：商业授权模式允许其直接应用于生产环境，涵盖物料搬运、包装、检测等多个工业场景。

多步骤任务推理：具备任务及子任务级别的推理能力，大幅提升复杂工作流程中的可靠性。

精细化灵巧操作：支持手指级控制，可完成小型零件组装等接触密集型任务，突破传统机器人操作局限。

首个灵巧性缩放定律：基于20000+小时人类第一视角视频训练，无需大规模远程操作，更多人类数据即可可预测地提升机器人灵巧性。

便捷获取与兼容：可通过GitHub、Hugging Face获取，完美支持LeRobot数据集格式，降低应用门槛。

GR00T N1.7 是什么？

GR00T N1.7是一款拥有30亿参数的开源推理型视觉-语言-动作（VLA）模型，核心功能是将视觉观测、自然语言指令映射为机器人的连续动作。其采用独特的动作级联（Action Cascade）架构，通过双系统设计分离高级推理与低级运动控制，实现精准、高效的机器人控制。

双系统架构解析

系统2（视觉-语言模型，VLM）：以Cosmos-Reason2-2B为骨干网络，负责处理图像令牌和语言指令，生成高级动作令牌，承担任务分解与多步骤推理的核心职责——例如将“组装小型零件”拆解为“抓取零件”“对准接口”“完成拼接”等子任务，并规划每个子任务的执行逻辑。

系统1（扩散Transformer，DiT）：采用32层DiT结构，接收视觉-语言模型的输出结果和机器人实时状态，通过去噪处理生成精准的实时运动指令，确保机器人动作的流畅性与准确性。

输入与输出规范

模型输入涵盖三类关键信息，兼容多种实际应用场景：RGB图像帧（支持任意分辨率）、自然语言指令、机器人本体感受状态（包括关节位置、关节速度、末端执行器位姿）；输出为映射到机器人自由度的连续值动作向量，可直接对接机器人控制系统，实现动作的精准执行。

目前，GR00T N1.7已在多个机器人平台上完成验证，包括Unitree G1人形机器人、YAM双臂机械手、AGIBot Genie 1人形机器人，可稳定完成移动操作、桌面操作、灵巧双臂操作等各类任务，适配不同场景的应用需求。

核心突破：基于人类第一视角视频的训练革新

GR00T N1.7的核心技术突破源于EgoScale研究——模型预训练采用了20854小时的人类第一视角视频数据，覆盖制造业、零售业、医疗保健、家庭环境等20多个任务类别。这与上一代N1.6模型仅使用数千小时机器人远程操作数据相比，实现了数据规模与多样性的跨越式提升。

训练逻辑：借鉴人类能力，突破远程操作局限

其核心逻辑在于：人类与机器人拥有相似的身体结构（双手、第一视角观察），且所处的物理世界环境一致。通过传感器采集人类第一视角视频（包括头部摄像头、手腕摄像头、手部追踪数据），可为模型提供丰富的操作先验知识——无需在物理机器人上逐一演示每种行为，就能让模型掌握各类操作的核心逻辑，将预训练提升到远程操作无法企及的规模。

关键发现：首个机器人灵巧性缩放定律

NVIDIA团队通过这项研究，首次发现了机器人灵巧性的缩放定律：人类第一视角数据的数量与机器人灵巧性呈现可预测、稳定的正相关关系——当数据量从1000小时增加到20000小时时，机器人的平均任务完成率提升超过一倍。这一规律直接转化为机器人的实际操作能力，使具备22个自由度的机器人手部能够完成通用机器人模型长期难以实现的接触密集型任务，如小型零件组装、精细抓取等。

推理与部署：简单高效，适配多平台

GR00T N1.7兼顾易用性与兼容性，提供简洁的部署流程，支持在多种NVIDIA硬件平台上运行，满足不同场景的部署需求。

快速部署步骤

只需通过以下命令，即可克隆仓库、安装依赖并启动策略服务器，对接目标机器人：

git clone --recurse-submodules https://github.com/NVIDIA/Isaac-GR00T
cd Isaac-GR00T
bash scripts/deployment/dgpu/install_deps.sh
source .venv/bin/activate
uv run python gr00t/eval/run_gr00t_server.py \
    --embodiment-tag GR1 \
    --model-path nvidia/GR00T-N1.7

启动服务器后，可通过以下Python代码在环境循环中调用模型，获取机器人动作指令：

from gr00t.policy.server_client import PolicyClient
policy = PolicyClient(host="localhost", port=5555)
obs, info = env.reset()
action, info = policy.get_action(obs)
obs, reward, done, truncated, info = env.step(action)

平台兼容性

GR00T N1.7采用商业授权模式，支持NVIDIA Ampere、Hopper、Lovelace、Blackwell系列GPU，以及Jetson边缘计算平台，可灵活部署于云端、工业现场等不同环境。关于4步去噪、单摄像头视角下的推理性能详情，可参考官方提供的基准测试数据。

机器人微调：适配自定义场景，无缝升级

GR00T N1.7支持基于LeRobot数据集格式，对自定义机器人形态进行微调，降低了不同机器人平台的适配成本。目前已预注册多种机器人形态，包括UNITREE_G1、LIBERO_PANDA、OXE_WIDOWX等，用户也可注册自定义机器人形态。

微调命令示例

CUDA_VISIBLE_DEVICES=0 uv run python gr00t/experiment/launch_finetune.py \
    --base-model-path nvidia/GR00T-N1.7 \
    --dataset-path <YOUR_DATASET_PATH> \
    --embodiment-tag <YOUR_EMBODIMENT> \
    --modality-config-path <YOUR_MODALITY_CONFIG> \
    --num-gpus 1 \
    --output-dir <OUTPUT_PATH> \
    --max-steps 2000 \
    --global-batch-size 32

从N1.6无缝升级

对于使用过GR00T N1.6的用户，升级过程极为便捷，属于“即插即用”式替换——只需将模型路径指向nvidia/GR00T-N1.7，原有的机器人形态配置和工作流程均可直接沿用。升级后的核心提升在于：采用升级后的Cosmos-Reason2-2B视觉-语言骨干网络，结合EgoScale预训练，在无需任何微调的情况下，即可实现机器人灵巧性和泛化能力的显著提升。

总结：重新定义人形机器人智能的边界

NVIDIA Isaac GR00T N1.7（早期访问版）的发布，标志着人形机器人基础模型进入“人类数据驱动”的新阶段。其通过首个灵巧性缩放定律、双系统架构设计、商业级部署支持，不仅解决了传统机器人训练中数据稀缺、泛化能力弱、部署复杂等痛点，更推动人形机器人从实验室走向工业生产、家庭服务等实际场景。

无论是研究人员开展机器人智能研究，还是企业部署人形机器人解决方案，GR00T N1.7都提供了高效、灵活的工具支持。随着后续版本的迭代和更多开发者的参与，这款模型有望进一步释放人形机器人的应用潜力，加速机器人智能时代的到来。

相关资源可通过以下渠道获取：