机器人,什么时候才能真正“像人一样用手”?
相比“抓取”,真正的挑战在于——使用工具、精细操作,甚至跨任务泛化。但现实是,灵巧手控制一直卡在几个核心瓶颈上:
1. 数据难获取:真实机器人遥操作数据采集成本高、效率低。
2. 形态不统一:不同机械手结构差异大,难以共享能力。
3. 控制维度高:灵巧手关节自由度多,策略学习和泛化都很困难。
这些问题叠加在一起,使得“让机器人像人一样灵活用手”这件事,一直难以真正实现。
01UniDex:迈向通用灵巧操作的基础模型体系
针对上述难题,清华大学联合上海期智研究院等机构提出 UniDex——一套面向通用灵巧手控制的基础模型体系,涵盖大规模数据集、VLA 模型以及人类数据采集方案。其核心模型 UniDex-VLA 将视觉、语言与动作统一建模,通过大规模预训练 + 任务微调:
- 在真实工具使用任务中达到约 81% 平均任务进度
- 在新物体与不同手型上表现出良好的泛化能力,并支持零样本迁移
这意味着:模型不再局限于单一手型或特定任务,而是开始朝“通用操作能力”迈进。
02统一动作空间 FAAS
在“如何让不同机械手共享能力”这个问题上,UniDex 给出了一个关键解法——FAAS(Function–Actuator–Aligned Space)。FAAS 不再按照机械结构对齐不同机械手,而是按照“功能”对齐:将不同机械手中承担类似作用的关节映射到同一控制空间中。这样一来,不同手型之间就能共享技能,大幅提升跨平台迁移能力,也让原本复杂的高维控制问题变得更可学习。
03数据集规模与特点
在FAAS提升可学习性的同时,另一个关键问题也随之浮现:数据从哪里来?
为此,UniDex 将人类操作作为数据来源,构建了大规模训练数据 UniDex-Dataset,具体包括:
1. 大规模数据构建:包含超过 5 万条轨迹、900 万帧图像-点云-动作数据
2. 多形态覆盖:支持 8 种灵巧手形态,涵盖 6–24 自由度,具备良好的跨手型泛化基础
3. 人机动作映射:通过人机交互方式,将人手操作轨迹转换为机器人可执行动作
4. 视觉差异对齐:在点云中去除人手并嵌入机器人手,从而缩小人类与机器人之间的视觉与运动差距
04低成本数据采集方案 UniDex-Cap
在构建大规模人类操作数据的基础上,UniDex 进一步提出了便携式采集方案 UniDex-Cap。该方案能够同步记录 RGB-D 数据与人手姿态,并自动转换为机器人可执行的轨迹,从而实现人机数据的协同训练,减少对昂贵机器人示教数据的依赖。
数据集地址:
https://www.selectdataset.com/dataset/5215b6a6c0ae734bf8617381d089832a