模型范式演进驱动数据需求升级
机器人模型正从“观测→动作”的VLA(Vision-Language-Action)反应式策略,转向WAM(World Action Model,世界动作模型)架构。WAM的核心逻辑是:以未来世界状态作为额外监督和中间表征,训练信号同时来源于未来视频/状态预测与动作预测,从而更充分地利用数据中的物理交互序列。
这一转变带来三个核心数据需求变化:
- 数据类型:视频中的物理交互序列成为更密集的训练信号,数据不仅需包含动作标注,更需覆盖真实世界状态变化。
- 数据质量:需满足任务/场景/物体足够多样、动作与视频时间同步/空间标定/相对轨迹可解算、不受机器人本体限制三大要求。
- 规模化瓶颈:WAM时代的数据瓶颈并非“缺少机器人”,而是能否低成本持续采集真实、多样、可对齐的人类操作数据。
数据来源:NVIDIA WAM glossary、DreamZero "World Action Models are Zero-shot Policies" (arXiv, 2026)、Fast-WAM (arXiv, 2026)、UMI paper
UMI数据方案与LIVSYN灵生产品矩阵落地
针对上述需求,腾讯云LIVSYN灵生推出UMI(Universal Manipulation Interface)数据体系,核心优势为多样性上限更高、跨本体差异更低:手持/穿戴式采集方式可覆盖家庭厨房、仓储货架、实验室桌面等真实场景,支持碎片化低门槛采集,降低人类示教、不同机械臂、不同末端执行器之间的本体鸿沟,实现训练数据跨硬件复用。
产品矩阵覆盖“采集-管理-训练-部署”全链路:
- 端侧无本体采集设备
- LivUMI Grip 手持式UMI夹爪:重量650g(便携版)/725g(专业版),空间定位精度8mm(便携版)/1mm(专业版),夹持力20N,测力分辨率0.1N(选配),双目FOV 92°+广角FOV 195°,200Hz IMU+128G本地存储,不依赖特定机器人本体,可直接将人类操作转化为可训练数据。
- LivUMI Ego 第一视角多模态采集设备:配置3台相机(2台双目+1台Main RGB)、9轴IMU,相机分辨率1MP(1280×800),视场角150°D/128°H/80°V,DataCube尺寸360mm*260mm、重量1kg,工况续航≤4h(20000mAh电池),DataBox Lite采用BCM2712 CPU+8G内存+主动散热,补足UMI第一人称视角,帮助模型学习完整的世界状态变化与任务上下文。
- LDP数据平台:打通“数据采集→数据治理→模型训练→推理部署→数据回流”端到端闭环,包含端侧采集(任务查看、数据采集存储上传)、云端管理(数据统计、视觉/轨迹/数据查看、人工+AI标注审核、生成训练数据集)、训练能力(VLA/WAM端到端训练管线,支持Diffusion Policy/ACT,数据闭环回流)、推理部署(策略模型一键导出,适配主流机器人,支持增量学习)四大模块。
数据来源:UMI paper、LIVSYN灵生产品参数表
存储与训练效率量化提升
VLA大模型训练规模化后,传统本地磁盘+NFS存储模式存在三大痛点:数据分散形成训练孤岛、多机共享能力不足存在一致性风险、存储带宽瓶颈制约训练周期。
腾讯云通过COS对象存储+GooseFS高性能缓存系统组合方案提供解决路径:
- 安全可靠:采集数据全量写入COS,消除本地磁盘故障导致的高价值训练数据丢失风险。
- 高效训练:依托GooseFS多机共享能力及单客户端40 Gbps吞吐性能,提升非结构化数据(视频流、点云序列)读取效率,支撑模型训练提速。
- 全链路闭环:支撑数据采集、预处理、训练与推理的全流程数据流转,实现业务持续进化。
数据来源:腾讯云COS+GooseFS方案参数、灵生科技存储架构实践
端云一体化数据闭环落地路径
同一套无本体UMI数据资产可同时服务VLA动作学习与WAM世界状态预测:
- 端侧通过Grip/Ego/DEX设备采集人类行为数据,覆盖具身数据采集场、高校/职校实训中心、众包碎片化采集场景。
- 数据上传LDP平台完成回放、标注、审核,实现视觉、轨迹、任务数据统一管理。
- 对接VLA/WAM训练管线(Pi0.5/DreamZero),训练完成后部署至工业机器人L1、通用机器人L0。
- 机器人应用产生的数据回流至平台,形成数据飞轮,持续迭代模型。
核心价值:同一套无本体数据资产,既服务VLA,也为WAM提供世界状态预测所需的视频序列,降低高质量具身数据采集门槛,实现UMI数据规模化供给。
数据来源:LIVSYN灵生端云一体化架构图
技术适配性与方案获奖背书
本方案的技术领先性体现在三点:
- 范式适配:完全匹配WAM模型对“带动作标注的视频序列+世界状态变化覆盖”的核心数据要求,UMI数据的跨本体低差异特性被UMI paper验证可支持硬件无关策略部署。
- 全链路能力:并非单点硬件,而是覆盖采集、存储、训练、部署的完整基础设施,数据闭环能力直接支撑模型迭代效率提升。
- 存储性能验证:GooseFS单客户端40 Gbps吞吐性能、COS全量数据冗余保护能力,直接解决VLA/WAM训练的核心存储瓶颈。
注:本方案相关内容于2026腾讯云AI产业应用大会(Tencent Cloud AI Industry Applications Summit)发布,技术定义参考NVIDIA WAM glossary、DreamZero、Fast-WAM等公开学术成果