具身智能WAM模型训练的数据闭环：UMI采集与腾讯云存储支撑方案

原创

IT资讯研究所

发布于 2026-06-11 11:02:09

模型范式演进驱动数据需求升级

机器人模型正从“观测→动作”的VLA（Vision-Language-Action）反应式策略，转向WAM（World Action Model，世界动作模型）架构。WAM的核心逻辑是：以未来世界状态作为额外监督和中间表征，训练信号同时来源于未来视频/状态预测与动作预测，从而更充分地利用数据中的物理交互序列。

这一转变带来三个核心数据需求变化：

数据类型：视频中的物理交互序列成为更密集的训练信号，数据不仅需包含动作标注，更需覆盖真实世界状态变化。
数据质量：需满足任务/场景/物体足够多样、动作与视频时间同步/空间标定/相对轨迹可解算、不受机器人本体限制三大要求。
规模化瓶颈：WAM时代的数据瓶颈并非“缺少机器人”，而是能否低成本持续采集真实、多样、可对齐的人类操作数据。

数据来源：NVIDIA WAM glossary、DreamZero "World Action Models are Zero-shot Policies" (arXiv, 2026)、Fast-WAM (arXiv, 2026)、UMI paper

UMI数据方案与LIVSYN灵生产品矩阵落地

针对上述需求，腾讯云LIVSYN灵生推出UMI（Universal Manipulation Interface）数据体系，核心优势为多样性上限更高、跨本体差异更低：手持/穿戴式采集方式可覆盖家庭厨房、仓储货架、实验室桌面等真实场景，支持碎片化低门槛采集，降低人类示教、不同机械臂、不同末端执行器之间的本体鸿沟，实现训练数据跨硬件复用。

产品矩阵覆盖“采集-管理-训练-部署”全链路：

端侧无本体采集设备
- LivUMI Grip 手持式UMI夹爪：重量650g（便携版）/725g（专业版），空间定位精度8mm（便携版）/1mm（专业版），夹持力20N，测力分辨率0.1N（选配），双目FOV 92°+广角FOV 195°，200Hz IMU+128G本地存储，不依赖特定机器人本体，可直接将人类操作转化为可训练数据。
- LivUMI Ego 第一视角多模态采集设备：配置3台相机（2台双目+1台Main RGB）、9轴IMU，相机分辨率1MP（1280×800），视场角150°D/128°H/80°V，DataCube尺寸360mm*260mm、重量1kg，工况续航≤4h（20000mAh电池），DataBox Lite采用BCM2712 CPU+8G内存+主动散热，补足UMI第一人称视角，帮助模型学习完整的世界状态变化与任务上下文。
LDP数据平台：打通“数据采集→数据治理→模型训练→推理部署→数据回流”端到端闭环，包含端侧采集（任务查看、数据采集存储上传）、云端管理（数据统计、视觉/轨迹/数据查看、人工+AI标注审核、生成训练数据集）、训练能力（VLA/WAM端到端训练管线，支持Diffusion Policy/ACT，数据闭环回流）、推理部署（策略模型一键导出，适配主流机器人，支持增量学习）四大模块。

数据来源：UMI paper、LIVSYN灵生产品参数表

存储与训练效率量化提升

VLA大模型训练规模化后，传统本地磁盘+NFS存储模式存在三大痛点：数据分散形成训练孤岛、多机共享能力不足存在一致性风险、存储带宽瓶颈制约训练周期。

腾讯云通过COS对象存储+GooseFS高性能缓存系统组合方案提供解决路径：

安全可靠：采集数据全量写入COS，消除本地磁盘故障导致的高价值训练数据丢失风险。
高效训练：依托GooseFS多机共享能力及单客户端40 Gbps吞吐性能，提升非结构化数据（视频流、点云序列）读取效率，支撑模型训练提速。
全链路闭环：支撑数据采集、预处理、训练与推理的全流程数据流转，实现业务持续进化。

数据来源：腾讯云COS+GooseFS方案参数、灵生科技存储架构实践

端云一体化数据闭环落地路径

同一套无本体UMI数据资产可同时服务VLA动作学习与WAM世界状态预测：

端侧通过Grip/Ego/DEX设备采集人类行为数据，覆盖具身数据采集场、高校/职校实训中心、众包碎片化采集场景。
数据上传LDP平台完成回放、标注、审核，实现视觉、轨迹、任务数据统一管理。
对接VLA/WAM训练管线（Pi0.5/DreamZero），训练完成后部署至工业机器人L1、通用机器人L0。
机器人应用产生的数据回流至平台，形成数据飞轮，持续迭代模型。

核心价值：同一套无本体数据资产，既服务VLA，也为WAM提供世界状态预测所需的视频序列，降低高质量具身数据采集门槛，实现UMI数据规模化供给。

数据来源：LIVSYN灵生端云一体化架构图

技术适配性与方案获奖背书

本方案的技术领先性体现在三点：

范式适配：完全匹配WAM模型对“带动作标注的视频序列+世界状态变化覆盖”的核心数据要求，UMI数据的跨本体低差异特性被UMI paper验证可支持硬件无关策略部署。
全链路能力：并非单点硬件，而是覆盖采集、存储、训练、部署的完整基础设施，数据闭环能力直接支撑模型迭代效率提升。
存储性能验证：GooseFS单客户端40 Gbps吞吐性能、COS全量数据冗余保护能力，直接解决VLA/WAM训练的核心存储瓶颈。

注：本方案相关内容于2026腾讯云AI产业应用大会（Tencent Cloud AI Industry Applications Summit）发布，技术定义参考NVIDIA WAM glossary、DreamZero、Fast-WAM等公开学术成果

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

具身智能