清华联合上海期智发布通用灵巧操作基础模型体系 UniDex

文章来源：企鹅号 - 五号数据雷达

机器人，什么时候才能真正“像人一样用手”？

相比“抓取”，真正的挑战在于——使用工具、精细操作，甚至跨任务泛化。但现实是，灵巧手控制一直卡在几个核心瓶颈上：

1. 数据难获取：真实机器人遥操作数据采集成本高、效率低。

2. 形态不统一：不同机械手结构差异大，难以共享能力。

3. 控制维度高：灵巧手关节自由度多，策略学习和泛化都很困难。

这些问题叠加在一起，使得“让机器人像人一样灵活用手”这件事，一直难以真正实现。

01UniDex：迈向通用灵巧操作的基础模型体系

针对上述难题，清华大学联合上海期智研究院等机构提出 UniDex——一套面向通用灵巧手控制的基础模型体系，涵盖大规模数据集、VLA 模型以及人类数据采集方案。其核心模型 UniDex-VLA 将视觉、语言与动作统一建模，通过大规模预训练 + 任务微调：

- 在真实工具使用任务中达到约 81% 平均任务进度

- 在新物体与不同手型上表现出良好的泛化能力，并支持零样本迁移

这意味着：模型不再局限于单一手型或特定任务，而是开始朝“通用操作能力”迈进。

02统一动作空间 FAAS

在“如何让不同机械手共享能力”这个问题上，UniDex 给出了一个关键解法——FAAS（Function–Actuator–Aligned Space）。FAAS 不再按照机械结构对齐不同机械手，而是按照“功能”对齐：将不同机械手中承担类似作用的关节映射到同一控制空间中。这样一来，不同手型之间就能共享技能，大幅提升跨平台迁移能力，也让原本复杂的高维控制问题变得更可学习。

03数据集规模与特点

在FAAS提升可学习性的同时，另一个关键问题也随之浮现：数据从哪里来？

为此，UniDex 将人类操作作为数据来源，构建了大规模训练数据 UniDex-Dataset，具体包括：

1. 大规模数据构建：包含超过 5 万条轨迹、900 万帧图像-点云-动作数据

2. 多形态覆盖：支持 8 种灵巧手形态，涵盖 6–24 自由度，具备良好的跨手型泛化基础

3. 人机动作映射：通过人机交互方式，将人手操作轨迹转换为机器人可执行动作

4. 视觉差异对齐：在点云中去除人手并嵌入机器人手，从而缩小人类与机器人之间的视觉与运动差距

04低成本数据采集方案 UniDex-Cap

在构建大规模人类操作数据的基础上，UniDex 进一步提出了便携式采集方案 UniDex-Cap。该方案能够同步记录 RGB-D 数据与人手姿态，并自动转换为机器人可执行的轨迹，从而实现人机数据的协同训练，减少对昂贵机器人示教数据的依赖。

数据集地址：

https://www.selectdataset.com/dataset/5215b6a6c0ae734bf8617381d089832a

发表于: 2026-03-272026-03-27 17:21:25
原文链接：https://page.om.qq.com/page/OI2pS4CMIv7B2nrpi5cCymrQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

清华联合上海期智发布通用灵巧操作基础模型体系 UniDex

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐