LeRobot 新作 X-VLA：机器人界的通用基础模型来了

GPUS Lady

发布于 2026-03-02 21:15:55

8230

LeRobot 始终秉持着用优质、强大的视觉 - 语言 - 动作模型（VLA）赋能开发者社区的使命，而 X-VLA 的推出，正是这一使命的重要落地。近日LeRobot 社区正式引入这款全新 VLA 模型 ——X-VLA，作为首个基于软提示（Soft-Prompt）的跨载体视觉 - 语言 - 动作机器人基础模型，它真正实现了 “一个模型适配任意机器人、完成任意任务” 的突破，更能同时适配多种不同的机器人载体，为通用机器人智能的发展开辟了全新路径。

论文介绍：https://huggingface.co/collections/lerobot/xvla

机器人模型的痛点：数据异构性成最大障碍

近年来，大语言模型（LLM）和视觉 - 语言模型（VLM）的突破，让研究者看到了将基础模型架构延伸到机器人实体控制的可能，视觉 - 语言 - 动作（VLA）模型应运而生。这类模型希望融合广泛的语义理解能力和稳健的操作技能，打造通用的机器人智能体，但训练过程却困难重重。

核心问题在于机器人数据的高度异构性：不同机器人有着不同的机械臂配置、动作空间，搭配的相机设备、视觉采集范围千差万别，甚至任务数据的收集协议、分布规律也各不相同。这些不一致性会造成严重的分布偏移，不仅让模型预训练过程极不稳定，还会导致模型在适配新机器人、新任务时，效果大打折扣，难以实现通用化。

传统的解决思路要么是为不同机器人单独训练模型，成本高、效率低；要么是试图打造复杂的统一架构，却始终无法很好地兼容各类硬件和数据的差异。而 X-VLA 从大模型的提示学习（Prompt Learning） 和元学习（Meta-Learning） 中汲取灵感，提出了全新的解决方案：让 VLA 模型像 LLM 学习不同任务一样，通过 “提示” 学习每台机器人的硬件结构和数据集特征。

X-VLA 的核心创新：软提示解锁跨载体通用能力

X-VLA 是一个基于软提示、融合流匹配（Flow-Matching）的 VLA 框架，其核心设计是将每一种机器人硬件配置视为一个 “任务”，用一组可学习的嵌入向量（软提示）对其进行编码。这些软提示能够精准捕捉不同机器人的载体特征、不同场景的领域特异性差异，并且从多模态融合的初始阶段就引导 Transformer 模型的学习，让模型在单一统一架构中，轻松调和不同机器人的形态、数据类型和传感器配置差异，这也是它能同时适配多种机器人载体的关键。

1. 轻量适配，仅调 1% 参数实现高效迁移

X-VLA 的基础模型 X-VLA-0.9B 拥有 0.9B 参数，在 7 个机器人平台、290K 个训练 episode 中完成预训练，学会了与载体无关的通用策略。当需要适配新机器人时，无需重新训练整个模型，只需冻结预训练的主干网络，为新硬件学习一组新的软提示即可。

整个适配过程仅需微调1% 的参数（约 900 万），相比传统方法减少了 300 倍的可训练参数，却能在 LIBERO、Simpler-WidowX 等基准测试中达到接近全量微调的性能，实现了高效、轻量的跨机器人适配。

2. 双阶段训练，兼顾通用能力与场景适配

X-VLA 采用科学的双阶段训练流程，既保证了模型的通用基础，又能精准适配特定场景：

第一阶段：预训练：在多平台、多任务的海量数据中训练，借助软提示吸收不同载体的特异性，让模型掌握通用的机器人操作策略，适配单臂、双臂等五种不同类型的机械臂；
第二阶段：领域适配：针对目标机器人 / 任务，引入并优化新的软提示，编码新硬件的配置特征，主干网络保持冻结，快速得到可部署的专属策略。

3. 纯 Transformer 架构，兼顾扩展性与性能

X-VLA 完全基于 Transformer 编码器构建，这一架构让模型能够自然地随模型规模和数据集多样性进行扩展。在 6 个仿真基准测试和 3 台真实机器人上的实验表明，软提示机制在处理硬件和领域差异方面，性能显著优于现有方法，无论是跨机器人适配、跨任务 / 环境适配，还是灵巧的精细操作任务，都表现出极强的能力。比如我们开放的布料折叠专用检查点，仅需少量演示，就能在两分钟内完成折叠，更在连续 2 小时的布料折叠测试中实现了 100% 的成功率，成为 X-VLA 实际落地能力的有力证明。

X-VLA 的核心设计：让模型 “读懂” 每台机器人

想要实现 “任意机器人、任意任务” 的适配，除了核心的软提示机制，X-VLA 还设计了一系列关键组件，解决了机器人动作空间不统一、硬件配置难区分、数据预处理不兼容等问题。

1. 动作模式（Action Modes）：适配不同的动作空间

不同机器人的动作维度、控制方式差异巨大，比如有的机器人是末端执行器 6D 空间控制，有的是关节直接控制，有的双臂机器人实际动作维度为 12D，而模型预训练维度为 20D。

X-VLA 设计了动作注册系统，通过action_mode参数定义动作的处理方式、损失函数和预测后处理逻辑，提供了多种预设模式，还支持自定义：

ee6d：适用于双臂空间控制的 20 维末端执行器模式；
joint：适用于关节直接控制的 14 维模式；
so101_bimanual：专门适配双臂机器人的维度匹配模式；
auto（推荐）：自动检测数据集的动作维度，完成 padding / 裁剪，无需为新机器人编写自定义代码，是新手适配的最佳选择。

2. 领域 ID（Domain IDs）：区分不同的硬件与配置

为了让模型精准区分不同的机器人、相机配置，甚至是 “机器人 + 相机” 的组合，X-VLA 设计了领域 ID—— 一组可学习的标识符，每个领域 ID 对应一种特定的硬件 / 配置组合（比如 LIBERO 数据集对应 ID3，WidowX 机器人对应 ID4）。

训练时领域 ID 会自动加入观测数据，模型通过领域 ID 快速识别当前硬件特征，结合软提示完成针对性的动作预测，从根源上解决了不同硬件配置的混淆问题。

3. 标准化预处理：保证数据的兼容性

X-VLA 规定了三大必备预处理步骤，确保不同来源的视觉、状态数据能被模型统一处理：

将图像从 [0,255] 转换为 [0,1] 的浮点型；
应用 ImageNet 标准化，匹配 VLM 主干网络的输入要求；
为观测数据添加领域 ID，让模型识别硬件配置。

同时，X-VLA 还支持自定义预处理流程，适配不同数据集的特殊格式，Lerobot开放的全新折叠数据集也已完成标准化处理，能直接对接模型训练与推理，进一步降低了开发者的使用成本。

易上手、高可用：X-VLA 的实际应用

X-VLA 基于 LeRobot 框架开发，搭配 LeRobot开放的全套资源，安装和使用门槛极低，研究者和开发者无需深入理解底层架构，就能快速实现模型的部署、评估和微调。

简单安装，一键调用官方预训练检查点

只需先安装 LeRobot，再通过pip install lerobot[xvla]安装 X-VLA 依赖，即可在 LeRobot 配置中通过policy.type=xvla调用模型。 LeRobot开放的 6 个官方预训练检查点覆盖了基础通用、仿真任务、真实机器人实操等多个场景，是开发者快速上手的最佳选择：

基础模型lerobot/xvla-base：0.9B 参数的通用预训练模型，是所有微调的基础；
仿真模型：lerobot/xvla-libero（LIBERO 基准 93% 成功率）、lerobot/xvla-widowx（WidowX 机器人取放任务）；
真实机器人模型：lerobot/xvla-folding（布料折叠 100% 成功率）、lerobot/xvla-google-robot（谷歌机器人适配）等。

灵活微调，适配自定义机器人 / 任务

针对新的机器人或任务，X-VLA 提供了标准化的微调流程，只需指定数据集、硬件参数，即可启动训练，官方还推荐了优化配置：使用bfloat16精度避免显存溢出，不冻结 VLM 编码器，同时训练策略 Transformer 和软提示。如果有充足的计算资源，采用 “VLM 编码器 1/10 学习率，其他组件全学习率” 的自定义学习率策略，能实现最佳微调效果。

对于拥有独特动作空间的机器人，X-VLA 还支持自定义动作模式，只需定义动作维度、损失函数、预处理 / 后处理逻辑，即可快速适配，满足个性化研发需求。

X-VLA 的意义：重新定义通用机器人智能，赋能社区创新

X-VLA 的出现，不仅向业界证明了打造通用机器人智能，无需追求越来越复杂的架构，而是要找对吸收数据异构性的方法，更践行了 LeRobot 用优质 VLA 赋能社区的使命。软提示这一简单、可扩展的机制，成功实现了多样化机器人数据的统一，让 “一个模型适配所有机器人” 从理想变成了现实，而我们开放的全套模型检查点、专用数据集和完整文档，更是让社区开发者站在 “巨人的肩膀上”，大幅降低了机器人智能模型的研发成本。

在性能上，X-VLA 在多个仿真和真实场景中超越了 23 个现有模型，成为机器人 VLA 领域的新标杆；在应用上，它轻量的微调方式、极低的使用门槛，让高校、企业、个人开发者都能快速落地，在工业生产、家庭服务、物流配送等场景中探索机器人的通用化应用；在社区发展上，X-VLA 为 LeRobot 社区注入了全新活力，也为跨载体机器人基础模型的研究指明了方向，后续基于软提示的优化和扩展，有望让机器人在更多真实场景中实现通用化、智能化的操作。

未来，LeRobot 还将持续深耕 VLA 领域，不断推出更优质的模型和资源，与社区共同探索通用机器人智能的更多可能，让每一位开发者都能借助 LeRobot 的工具，打造出更强大、更通用的机器人应用。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-02-25，如有侵权请联系 cloudcommunity@tencent.com 删除

机器人