

LeRobot 始终秉持着用优质、强大的视觉 - 语言 - 动作模型(VLA)赋能开发者社区的使命,而 X-VLA 的推出,正是这一使命的重要落地。近日LeRobot 社区正式引入这款全新 VLA 模型 ——X-VLA,作为首个基于软提示(Soft-Prompt)的跨载体视觉 - 语言 - 动作机器人基础模型,它真正实现了 “一个模型适配任意机器人、完成任意任务” 的突破,更能同时适配多种不同的机器人载体,为通用机器人智能的发展开辟了全新路径。
论文介绍:https://huggingface.co/collections/lerobot/xvla
机器人模型的痛点:数据异构性成最大障碍
近年来,大语言模型(LLM)和视觉 - 语言模型(VLM)的突破,让研究者看到了将基础模型架构延伸到机器人实体控制的可能,视觉 - 语言 - 动作(VLA)模型应运而生。这类模型希望融合广泛的语义理解能力和稳健的操作技能,打造通用的机器人智能体,但训练过程却困难重重。
核心问题在于机器人数据的高度异构性:不同机器人有着不同的机械臂配置、动作空间,搭配的相机设备、视觉采集范围千差万别,甚至任务数据的收集协议、分布规律也各不相同。这些不一致性会造成严重的分布偏移,不仅让模型预训练过程极不稳定,还会导致模型在适配新机器人、新任务时,效果大打折扣,难以实现通用化。
传统的解决思路要么是为不同机器人单独训练模型,成本高、效率低;要么是试图打造复杂的统一架构,却始终无法很好地兼容各类硬件和数据的差异。而 X-VLA 从大模型的提示学习(Prompt Learning) 和元学习(Meta-Learning) 中汲取灵感,提出了全新的解决方案:让 VLA 模型像 LLM 学习不同任务一样,通过 “提示” 学习每台机器人的硬件结构和数据集特征。
X-VLA 的核心创新:软提示解锁跨载体通用能力
X-VLA 是一个基于软提示、融合流匹配(Flow-Matching)的 VLA 框架,其核心设计是将每一种机器人硬件配置视为一个 “任务”,用一组可学习的嵌入向量(软提示)对其进行编码。这些软提示能够精准捕捉不同机器人的载体特征、不同场景的领域特异性差异,并且从多模态融合的初始阶段就引导 Transformer 模型的学习,让模型在单一统一架构中,轻松调和不同机器人的形态、数据类型和传感器配置差异,这也是它能同时适配多种机器人载体的关键。
X-VLA 的基础模型 X-VLA-0.9B 拥有 0.9B 参数,在 7 个机器人平台、290K 个训练 episode 中完成预训练,学会了与载体无关的通用策略。当需要适配新机器人时,无需重新训练整个模型,只需冻结预训练的主干网络,为新硬件学习一组新的软提示即可。
整个适配过程仅需微调1% 的参数(约 900 万),相比传统方法减少了 300 倍的可训练参数,却能在 LIBERO、Simpler-WidowX 等基准测试中达到接近全量微调的性能,实现了高效、轻量的跨机器人适配。
X-VLA 采用科学的双阶段训练流程,既保证了模型的通用基础,又能精准适配特定场景:
X-VLA 完全基于 Transformer 编码器构建,这一架构让模型能够自然地随模型规模和数据集多样性进行扩展。在 6 个仿真基准测试和 3 台真实机器人上的实验表明,软提示机制在处理硬件和领域差异方面,性能显著优于现有方法,无论是跨机器人适配、跨任务 / 环境适配,还是灵巧的精细操作任务,都表现出极强的能力。比如我们开放的布料折叠专用检查点,仅需少量演示,就能在两分钟内完成折叠,更在连续 2 小时的布料折叠测试中实现了 100% 的成功率,成为 X-VLA 实际落地能力的有力证明。
X-VLA 的核心设计:让模型 “读懂” 每台机器人
想要实现 “任意机器人、任意任务” 的适配,除了核心的软提示机制,X-VLA 还设计了一系列关键组件,解决了机器人动作空间不统一、硬件配置难区分、数据预处理不兼容等问题。
不同机器人的动作维度、控制方式差异巨大,比如有的机器人是末端执行器 6D 空间控制,有的是关节直接控制,有的双臂机器人实际动作维度为 12D,而模型预训练维度为 20D。
X-VLA 设计了动作注册系统,通过action_mode参数定义动作的处理方式、损失函数和预测后处理逻辑,提供了多种预设模式,还支持自定义:
ee6d:适用于双臂空间控制的 20 维末端执行器模式;joint:适用于关节直接控制的 14 维模式;so101_bimanual:专门适配双臂机器人的维度匹配模式;auto(推荐):自动检测数据集的动作维度,完成 padding / 裁剪,无需为新机器人编写自定义代码,是新手适配的最佳选择。为了让模型精准区分不同的机器人、相机配置,甚至是 “机器人 + 相机” 的组合,X-VLA 设计了领域 ID—— 一组可学习的标识符,每个领域 ID 对应一种特定的硬件 / 配置组合(比如 LIBERO 数据集对应 ID3,WidowX 机器人对应 ID4)。
训练时领域 ID 会自动加入观测数据,模型通过领域 ID 快速识别当前硬件特征,结合软提示完成针对性的动作预测,从根源上解决了不同硬件配置的混淆问题。
X-VLA 规定了三大必备预处理步骤,确保不同来源的视觉、状态数据能被模型统一处理:
同时,X-VLA 还支持自定义预处理流程,适配不同数据集的特殊格式,Lerobot开放的全新折叠数据集也已完成标准化处理,能直接对接模型训练与推理,进一步降低了开发者的使用成本。
易上手、高可用:X-VLA 的实际应用
X-VLA 基于 LeRobot 框架开发,搭配 LeRobot开放的全套资源,安装和使用门槛极低,研究者和开发者无需深入理解底层架构,就能快速实现模型的部署、评估和微调。
简单安装,一键调用官方预训练检查点
只需先安装 LeRobot,再通过pip install lerobot[xvla]安装 X-VLA 依赖,即可在 LeRobot 配置中通过policy.type=xvla调用模型。 LeRobot开放的 6 个官方预训练检查点覆盖了基础通用、仿真任务、真实机器人实操等多个场景,是开发者快速上手的最佳选择:
lerobot/xvla-base:0.9B 参数的通用预训练模型,是所有微调的基础;lerobot/xvla-libero(LIBERO 基准 93% 成功率)、lerobot/xvla-widowx(WidowX 机器人取放任务);lerobot/xvla-folding(布料折叠 100% 成功率)、lerobot/xvla-google-robot(谷歌机器人适配)等。
灵活微调,适配自定义机器人 / 任务
针对新的机器人或任务,X-VLA 提供了标准化的微调流程,只需指定数据集、硬件参数,即可启动训练,官方还推荐了优化配置:使用bfloat16精度避免显存溢出,不冻结 VLM 编码器,同时训练策略 Transformer 和软提示。如果有充足的计算资源,采用 “VLM 编码器 1/10 学习率,其他组件全学习率” 的自定义学习率策略,能实现最佳微调效果。
对于拥有独特动作空间的机器人,X-VLA 还支持自定义动作模式,只需定义动作维度、损失函数、预处理 / 后处理逻辑,即可快速适配,满足个性化研发需求。
X-VLA 的意义:重新定义通用机器人智能,赋能社区创新
X-VLA 的出现,不仅向业界证明了打造通用机器人智能,无需追求越来越复杂的架构,而是要找对吸收数据异构性的方法,更践行了 LeRobot 用优质 VLA 赋能社区的使命。软提示这一简单、可扩展的机制,成功实现了多样化机器人数据的统一,让 “一个模型适配所有机器人” 从理想变成了现实,而我们开放的全套模型检查点、专用数据集和完整文档,更是让社区开发者站在 “巨人的肩膀上”,大幅降低了机器人智能模型的研发成本。
在性能上,X-VLA 在多个仿真和真实场景中超越了 23 个现有模型,成为机器人 VLA 领域的新标杆;在应用上,它轻量的微调方式、极低的使用门槛,让高校、企业、个人开发者都能快速落地,在工业生产、家庭服务、物流配送等场景中探索机器人的通用化应用;在社区发展上,X-VLA 为 LeRobot 社区注入了全新活力,也为跨载体机器人基础模型的研究指明了方向,后续基于软提示的优化和扩展,有望让机器人在更多真实场景中实现通用化、智能化的操作。
未来,LeRobot 还将持续深耕 VLA 领域,不断推出更优质的模型和资源,与社区共同探索通用机器人智能的更多可能,让每一位开发者都能借助 LeRobot 的工具,打造出更强大、更通用的机器人应用。