首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >LeRobot 新作 X-VLA:机器人界的通用基础模型来了

LeRobot 新作 X-VLA:机器人界的通用基础模型来了

作者头像
GPUS Lady
发布2026-03-02 21:15:55
发布2026-03-02 21:15:55
3850
举报
文章被收录于专栏:GPUS开发者GPUS开发者

LeRobot 始终秉持着用优质、强大的视觉 - 语言 - 动作模型(VLA)赋能开发者社区的使命,而 X-VLA 的推出,正是这一使命的重要落地。近日LeRobot 社区正式引入这款全新 VLA 模型 ——X-VLA,作为首个基于软提示(Soft-Prompt)的跨载体视觉 - 语言 - 动作机器人基础模型,它真正实现了 “一个模型适配任意机器人、完成任意任务” 的突破,更能同时适配多种不同的机器人载体,为通用机器人智能的发展开辟了全新路径。

论文介绍:https://huggingface.co/collections/lerobot/xvla

机器人模型的痛点:数据异构性成最大障碍

近年来,大语言模型(LLM)和视觉 - 语言模型(VLM)的突破,让研究者看到了将基础模型架构延伸到机器人实体控制的可能,视觉 - 语言 - 动作(VLA)模型应运而生。这类模型希望融合广泛的语义理解能力和稳健的操作技能,打造通用的机器人智能体,但训练过程却困难重重。

核心问题在于机器人数据的高度异构性:不同机器人有着不同的机械臂配置、动作空间,搭配的相机设备、视觉采集范围千差万别,甚至任务数据的收集协议、分布规律也各不相同。这些不一致性会造成严重的分布偏移,不仅让模型预训练过程极不稳定,还会导致模型在适配新机器人、新任务时,效果大打折扣,难以实现通用化。

传统的解决思路要么是为不同机器人单独训练模型,成本高、效率低;要么是试图打造复杂的统一架构,却始终无法很好地兼容各类硬件和数据的差异。而 X-VLA 从大模型的提示学习(Prompt Learning)元学习(Meta-Learning) 中汲取灵感,提出了全新的解决方案:让 VLA 模型像 LLM 学习不同任务一样,通过 “提示” 学习每台机器人的硬件结构和数据集特征。

X-VLA 的核心创新:软提示解锁跨载体通用能力

X-VLA 是一个基于软提示、融合流匹配(Flow-Matching)的 VLA 框架,其核心设计是将每一种机器人硬件配置视为一个 “任务”,用一组可学习的嵌入向量(软提示)对其进行编码。这些软提示能够精准捕捉不同机器人的载体特征、不同场景的领域特异性差异,并且从多模态融合的初始阶段就引导 Transformer 模型的学习,让模型在单一统一架构中,轻松调和不同机器人的形态、数据类型和传感器配置差异,这也是它能同时适配多种机器人载体的关键。

1. 轻量适配,仅调 1% 参数实现高效迁移

X-VLA 的基础模型 X-VLA-0.9B 拥有 0.9B 参数,在 7 个机器人平台、290K 个训练 episode 中完成预训练,学会了与载体无关的通用策略。当需要适配新机器人时,无需重新训练整个模型,只需冻结预训练的主干网络,为新硬件学习一组新的软提示即可。

整个适配过程仅需微调1% 的参数(约 900 万),相比传统方法减少了 300 倍的可训练参数,却能在 LIBERO、Simpler-WidowX 等基准测试中达到接近全量微调的性能,实现了高效、轻量的跨机器人适配。

2. 双阶段训练,兼顾通用能力与场景适配

X-VLA 采用科学的双阶段训练流程,既保证了模型的通用基础,又能精准适配特定场景:

  • 第一阶段:预训练:在多平台、多任务的海量数据中训练,借助软提示吸收不同载体的特异性,让模型掌握通用的机器人操作策略,适配单臂、双臂等五种不同类型的机械臂;
  • 第二阶段:领域适配:针对目标机器人 / 任务,引入并优化新的软提示,编码新硬件的配置特征,主干网络保持冻结,快速得到可部署的专属策略。

3. 纯 Transformer 架构,兼顾扩展性与性能

X-VLA 完全基于 Transformer 编码器构建,这一架构让模型能够自然地随模型规模和数据集多样性进行扩展。在 6 个仿真基准测试和 3 台真实机器人上的实验表明,软提示机制在处理硬件和领域差异方面,性能显著优于现有方法,无论是跨机器人适配、跨任务 / 环境适配,还是灵巧的精细操作任务,都表现出极强的能力。比如我们开放的布料折叠专用检查点,仅需少量演示,就能在两分钟内完成折叠,更在连续 2 小时的布料折叠测试中实现了 100% 的成功率,成为 X-VLA 实际落地能力的有力证明。

X-VLA 的核心设计:让模型 “读懂” 每台机器人

想要实现 “任意机器人、任意任务” 的适配,除了核心的软提示机制,X-VLA 还设计了一系列关键组件,解决了机器人动作空间不统一、硬件配置难区分、数据预处理不兼容等问题。

1. 动作模式(Action Modes):适配不同的动作空间

不同机器人的动作维度、控制方式差异巨大,比如有的机器人是末端执行器 6D 空间控制,有的是关节直接控制,有的双臂机器人实际动作维度为 12D,而模型预训练维度为 20D。

X-VLA 设计了动作注册系统,通过action_mode参数定义动作的处理方式、损失函数和预测后处理逻辑,提供了多种预设模式,还支持自定义:

  • ee6d:适用于双臂空间控制的 20 维末端执行器模式;
  • joint:适用于关节直接控制的 14 维模式;
  • so101_bimanual:专门适配双臂机器人的维度匹配模式;
  • auto(推荐):自动检测数据集的动作维度,完成 padding / 裁剪,无需为新机器人编写自定义代码,是新手适配的最佳选择。

2. 领域 ID(Domain IDs):区分不同的硬件与配置

为了让模型精准区分不同的机器人、相机配置,甚至是 “机器人 + 相机” 的组合,X-VLA 设计了领域 ID—— 一组可学习的标识符,每个领域 ID 对应一种特定的硬件 / 配置组合(比如 LIBERO 数据集对应 ID3,WidowX 机器人对应 ID4)。

训练时领域 ID 会自动加入观测数据,模型通过领域 ID 快速识别当前硬件特征,结合软提示完成针对性的动作预测,从根源上解决了不同硬件配置的混淆问题。

3. 标准化预处理:保证数据的兼容性

X-VLA 规定了三大必备预处理步骤,确保不同来源的视觉、状态数据能被模型统一处理:

  • 将图像从 [0,255] 转换为 [0,1] 的浮点型;
  • 应用 ImageNet 标准化,匹配 VLM 主干网络的输入要求;
  • 为观测数据添加领域 ID,让模型识别硬件配置。

同时,X-VLA 还支持自定义预处理流程,适配不同数据集的特殊格式,Lerobot开放的全新折叠数据集也已完成标准化处理,能直接对接模型训练与推理,进一步降低了开发者的使用成本。

易上手、高可用:X-VLA 的实际应用

X-VLA 基于 LeRobot 框架开发,搭配 LeRobot开放的全套资源,安装和使用门槛极低,研究者和开发者无需深入理解底层架构,就能快速实现模型的部署、评估和微调。

简单安装,一键调用官方预训练检查点

只需先安装 LeRobot,再通过pip install lerobot[xvla]安装 X-VLA 依赖,即可在 LeRobot 配置中通过policy.type=xvla调用模型。 LeRobot开放的 6 个官方预训练检查点覆盖了基础通用、仿真任务、真实机器人实操等多个场景,是开发者快速上手的最佳选择:

  • 基础模型lerobot/xvla-base:0.9B 参数的通用预训练模型,是所有微调的基础;
  • 仿真模型:lerobot/xvla-libero(LIBERO 基准 93% 成功率)、lerobot/xvla-widowx(WidowX 机器人取放任务);
  • 真实机器人模型:lerobot/xvla-folding(布料折叠 100% 成功率)、lerobot/xvla-google-robot(谷歌机器人适配)等。

灵活微调,适配自定义机器人 / 任务

针对新的机器人或任务,X-VLA 提供了标准化的微调流程,只需指定数据集、硬件参数,即可启动训练,官方还推荐了优化配置:使用bfloat16精度避免显存溢出,不冻结 VLM 编码器,同时训练策略 Transformer 和软提示。如果有充足的计算资源,采用 “VLM 编码器 1/10 学习率,其他组件全学习率” 的自定义学习率策略,能实现最佳微调效果。

对于拥有独特动作空间的机器人,X-VLA 还支持自定义动作模式,只需定义动作维度、损失函数、预处理 / 后处理逻辑,即可快速适配,满足个性化研发需求。

X-VLA 的意义:重新定义通用机器人智能,赋能社区创新

X-VLA 的出现,不仅向业界证明了打造通用机器人智能,无需追求越来越复杂的架构,而是要找对吸收数据异构性的方法,更践行了 LeRobot 用优质 VLA 赋能社区的使命。软提示这一简单、可扩展的机制,成功实现了多样化机器人数据的统一,让 “一个模型适配所有机器人” 从理想变成了现实,而我们开放的全套模型检查点、专用数据集和完整文档,更是让社区开发者站在 “巨人的肩膀上”,大幅降低了机器人智能模型的研发成本。

在性能上,X-VLA 在多个仿真和真实场景中超越了 23 个现有模型,成为机器人 VLA 领域的新标杆;在应用上,它轻量的微调方式、极低的使用门槛,让高校、企业、个人开发者都能快速落地,在工业生产、家庭服务、物流配送等场景中探索机器人的通用化应用;在社区发展上,X-VLA 为 LeRobot 社区注入了全新活力,也为跨载体机器人基础模型的研究指明了方向,后续基于软提示的优化和扩展,有望让机器人在更多真实场景中实现通用化、智能化的操作。

未来,LeRobot 还将持续深耕 VLA 领域,不断推出更优质的模型和资源,与社区共同探索通用机器人智能的更多可能,让每一位开发者都能借助 LeRobot 的工具,打造出更强大、更通用的机器人应用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 轻量适配,仅调 1% 参数实现高效迁移
  • 2. 双阶段训练,兼顾通用能力与场景适配
  • 3. 纯 Transformer 架构,兼顾扩展性与性能
  • 1. 动作模式(Action Modes):适配不同的动作空间
  • 2. 领域 ID(Domain IDs):区分不同的硬件与配置
  • 3. 标准化预处理:保证数据的兼容性
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档