面向WAM时代的无本体人类操作数据采集与训练闭环

原创

IT前沿资讯站

发布于 2026-06-11 11:01:32

机器人学习范式迁移加剧高质量数据瓶颈

当前，机器人学习正从以视觉语言动作模型（VLA）为代表的“观察→动作”反应式策略，转向世界动作模型（WAM）。WAM的核心优势在于模型需先预测未来世界状态，再解码出动作，这意味着训练信号同时来自未来视频/状态预测与动作预测，数据中的物理交互序列被更充分地利用。范式变迁对训练数据提出了新要求：不仅需要带动作标注的视频序列，更需要能覆盖真实“世界状态变化”的密集监督信号。传统依赖单一机器人本体进行遥操作的数据采集方式，在任务多样性、采集成本、跨本体数据通用性方面面临严峻挑战。

Livsyn提供端到端无本体数据采集与治理方案

腾讯云LIVSYN灵生产品体系的核心是针对WAM数据需求提供的“人本”采集解决方案。其硬件基础包括：

LivUMI Grip手持式夹爪：重量650g（便携版）至725g（专业版），配备开合0-100mm末端执行器，空间定位精度达8mm（便携版）与1mm（专业版），触觉传感选配分辨率达0.1N。
LivUMI Ego第一视角采集设备：集成3相机（双目2 + Main RGB1），视场角达150°D / 128°H / 80°V，并配备9轴IMU，续航≤4小时。

软件平台LDP（Livsyn Data Platform）实现了从端侧采集、数据回放/标注/审核，到生成VLA/WAM训练数据集的端到端闭环。平台支持Diffusion Policy、ACT等主流算法，并提供策略模型一键导出与适配主流机器人的推理部署能力。

数据闭环驱动模型训练效率显著提升

通过UMI（无本体机器交互）采集方式，数据在任务多样性与跨本体通用性上取得关键突破：

采集效率：手持/穿戴式采集使人类可在家庭厨房、仓储货架、实验室桌面等真实场景完成碎片化、低门槛采集，任务覆盖面远高于单一机器人。
数据质量：设备确保动作与视频的时间同步、空间标定，为世界预测提供稳定映射。关键指标包括200Hz IMU及128G本地存储。
平台效能：LDP平台通过AI辅助标注与数据治理，将原始数据高效转化为可训练资产，支撑VLA/WAM端到端训练管线。

灵生科技借力腾讯云存储实现数据基础设施升级

在模型训练规模化过程中，灵生科技原有架构存在数据分散形成孤岛、多机共享能力不足、存储带宽制约训练周期等痛点。采用腾讯云解决方案后：

存储架构：对象存储COS作为统一存储底座，结合GooseFS高性能缓存加速，实现单客户端40 Gbps吞吐性能。
业务价值：采集数据全量写入COS，降低本地磁盘故障导致的数据丢失风险；GooseFS的多机共享能力有效提升了多GPU服务器并行训练时的数据读取效率，缩短了模型交付周期。