基于VLA进行产品研发落地的步骤

索旭东

发布于 2026-05-09 13:38:23

600

VLA用于清洁控制，研发周期约12-18个月，核心风险集中在数据准备（占30%时间）和安全验证（占40%时间），可以采用"确定性框架+VLA增量"的架构，避免纯端到端方案。

VLA清洁控制的研发，最难的不是模型本身，而是数据获取、安全设计和泛化验证，成功关键在于"不要追求完美模型，而是构建可迭代、可降级、可解释的工程体系"。

研发步骤

阶段1        阶段2        阶段3        阶段4        阶段5
需求定义  →  数据准备  →  模型开发  →  系统集成  →  验证部署
(1-2月)     (3-6月)      (3-5月)      (2-3月)      (3-6月)

关键里程碑：
├─ M1: 技术规格冻结
├─ M2: 数据集v1完成
├─ M3: 模型仿真验证通过
├─ M4: 硬件集成完成
└─ M5: Pilot用户测试通过

阶段1：需求定义与技术选型（1-2个月）

1.1 关键任务

任务	输出物
形态调研报告	支持型号清单（目标50-100种）
清洁效果量化标准	ATP检测流程 + 通过阈值
硬件约束定义	传感器清单 + 算力预算 + 尺寸限制
VLA vs 传统方案对比	技术选型决策书

1.2 注意事项

关键风险：

不要用"清洁干净"模糊标准，必须量化（如：ATP值<200 RLU）
算力预算要留30%余量，VLA推理开销容易超预期
传感器选型要考虑防水等级（IPX7以上）

常见错误：

低估形态多样性（方形、圆形、壁挂、智能盖板）
忽略光照条件变化（50lux到500lux）
未考虑水位变化对视觉的影响

1.3 最佳实践

实践	说明
形态聚类	按几何相似性聚类，每类选3-5个代表
能力分级	定义L1（基础清洁）到L4（自适应清洁）等级
硬件解耦	VLA模块与底层运动控制解耦，便于迭代

阶段2：数据准备（3-6个月）

2.1 数据采集规范

准备阶段：

标准污渍配方（确保一致性）
标记关键清洁区域（水位线、内壁、排污口）
记录ID、型号、几何参数

示教阶段：

专业保洁员操作，动捕系统录制位姿
同步录制：视觉 + 力觉 + 位姿 + 时间戳
每个重复5次（不同操作员）

标注阶段：

ATP荧光检测（每区域3个采样点）
标注清洁效果等级（A/B/C/D）
关联轨迹段与清洁区域

质检阶段：

轨迹连续性检查
标注一致性校验（双人交叉标注）
清洁度复测（10%样本抽检）

2.2 关键任务

任务	输出物	周期
3D模型采集	200+型号的CAD模型（带材质）	2-3月
示教轨迹录制	每种50条高质量轨迹 + 清洁度标签	3-4月
边界场景数据	异物、遮挡、损伤等困难样本	1-2月
仿真环境搭建	高保真仿真场景库	2-3月

2.3 注意事项

致命错误（会导致数据集废弃）：

污渍配方不标准 → 清洁度标签无效
时间戳不同步 → 无法训练时序模型
光照条件单一 → 模型无法泛化

质量问题（需要返工）：

示教员水平参差不齐
只录制成功案例
标注粒度太粗

2.4 最佳实践

实践	说明
数据分级	L1（仿真）→ L2（实验室）→ L3（真实场景）
失败案例采集	故意制造失败场景，训练恢复策略
域随机化	仿真中随机化光照、纹理、摩擦系数
主动学习	模型标注困难样本，人工复核

阶段3：模型开发（3-5个月）

3.1 推荐架构

感知层：视觉编码器（ResNet-34）
        + 深度估计（Stereo/ToF）
        + 语义分割（内壁/水位线/异物）
                ↓
规划层：VLA核心（Transformer-L，100M参数）
        输入：感知特征 + 任务指令 + 状态历史
        输出：下一个关键点序列（不是直接动作）
                ↓
执行层：轨迹优化（样条插值 + 力控闭环）
        + 碰撞检测（实时距离场）
        + 安全限幅（力/速度/位置硬限制）

3.2 训练流程

步骤	任务	周期
1	预训练视觉编码器	1-2周
2	行为克隆（BC）训练	2-3周
3	仿真强化学习微调	2-4周
4	域自适应（sim2real）	2-3周
5	安全约束嵌入	1-2周

3.3 训练配置

参数	推荐值
视觉编码器	ResNet-34 或 EfficientNet-B0
VLA骨干	Transformer-L（100M参数）
输出频率	10Hz
训练数据量	50K+ 轨迹段
验证集比例	15%（跨分割）

3.4 注意事项

模型设计陷阱：

直接输出关节角度 → 无法处理不同几何
纯视觉输入 → 光照变化时崩溃
单步预测 → 缺乏全局规划

训练常见问题：

过拟合示教员风格
忽略时序依赖
没有课程学习

3.5 最佳实践

实践	说明
输出关键点	VLA输出"下3秒要经过的5个关键点"，执行层插值
扩散策略	用扩散模型生成轨迹，多样性强
多任务训练	同时训练清洁、检测、避障
在线微调	部署后用用户数据优化（需隐私保护）

阶段4：系统集成（2-3个月）

4.1 硬件清单

模块	推荐方案
主控芯片	RK3588 或 Orin Nano（10-20TOPS）
视觉传感器	IMX585（广角）+ 红外补光
深度传感器	ToF（ST VL53L5CX）
力传感器	应变片式六维力传感器
IMU	BMI088
通信	CAN总线

4.2 软件架构

应用层：任务调度 + 用户界面 + OTA更新
    ↓
算法层：VLA推理引擎 + 运动规划 + 感知融合
    ↓
中间层：ROS2节点 + 消息队列 + 参数服务器
    ↓
驱动层：传感器驱动 + 电机驱动 + 安全监控
    ↓
硬件层：摄像头 + 电机 + 力传感器 + IMU

4.3 安全监控模块

空间边界检查：

实时计算末端位置
查询几何模型距离场
越界立即停止并回退

力度限制：

力传感器实时监控
超过阈值立即回退
记录触发日志用于分析

速度限制：

接触状态下强制降速
不同区域不同速度上限

异常检测：

VLA输出置信度 < 阈值 → 切换降级策略
推理延迟 > 阈值 → 暂停并重试
传感器数据异常 -> 安全停止

急停机制：

硬件急停按钮支持
急停后需手动复位

集成风险：

VLA推理延迟超标 → 导致碰撞
传感器同步问题 → 感知不一致
电源管理不当 → 中途断电

工程陷阱：

没有日志系统
固件无法OTA
没有降级策略

4.4 最佳实践

实践	说明
安全层独立	安全监控运行在独立MCU
心跳机制	各模块定期发送心跳
影子模式	早期版本只记录不执行
A/B测试框架	可对比不同模型版本

阶段5：测试验证与部署（3-6个月）

5.1 测试金字塔

              ▲
             ╱ ╲ Level 5: 真实用户测试（Pilot，100+户，3个月）
            ╱   ╲
           ╱─────╲ Level 4: 用户环境模拟（真实光线、水位变化）
          ╱       ╲
         ╱─────────╲ Level 3: 多型号实验室测试（10+种）
        ╱           ╲
       ╱─────────────╲ Level 2: 标准测试（ATP清洁度达标）
      ╱               ╲
     ╱─────────────────╲ Level 1: 仿真测试（覆盖率>70%）

5.2 通过标准

测试级别	通过标准	失败处理
L1 仿真	覆盖率>70%，无碰撞	修改模型
L2 标准	ATP<200 RLU，无损伤	调整力控
L3 多型号	5种平均覆盖率>65%	扩充数据
L4 用户模拟	异常处理成功率>90%	优化恢复策略
L5 真实家庭	故障率<5%，满意度达标	产品迭代

5.3 注意事项

测试盲区：

只测干净
只测正常流程
忽略极端环境

测试陷阱：

测试型号太少
没有压力测试
忽略用户误操作

5.4 最佳实践

实践	说明
自动化测试流水线	每日仿真测试，覆盖率回归检测
故障注入测试	模拟传感器失效、网络中断
长尾case库	收集困难场景，加入回归测试
Beta用户计划	招募早期用户收集反馈

关键决策点与回退策略

时间点	决策	判断依据	回退方案
T+2月	是否继续VLA路线	数据采集可行性	切换传统方案
T+6月	是否进入系统集成	仿真覆盖率>70%	回到模型优化
T+9月	是否开始Pilot	Lab测试达标	回到系统集成
T+12月	是否GA	Pilot满意度达标	延期或降级发布

降级路径：

降级1：VLA只做路径规划，执行层用确定性算法
降级2：VLA只做异常检测，清洁用预设轨迹
降级3：完全切换到3D扫描+预设轨迹方案

最佳实践清单

架构层面

分层决策，VLA不直接控制电机
安全监控层独立于VLA
设计明确的降级策略

数据层面

仿真数据优先，真实数据精标
收集失败案例，不只是成功案例
建立持续数据回流机制

模型层面

输出关键点序列，不是单步动作
多模态融合（视觉+深度+力觉）
内置不确定性估计

工程层面

影子模式部署验证
A/B测试框架
完善的日志和监控

产品层面

明确声明支持的型号
首次使用时的型号识别和提示
用户预期管理（不是万能清洁）

时间与资源估算

阶段	周期	团队规模	关键资源
需求定义	1-2月	3人	市场调研
数据准备	3-6月	5-8人	标注平台、仿真环境
模型开发	3-5月	4-6人	GPU集群
系统集成	2-3月	6-8人	硬件样机
验证部署	3-6月	8-10人	测试场地、Pilot用户