首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >准确率超90%,成功、故障、异常一步区分:世界模型+四足机器人的仪表巡检方案

准确率超90%,成功、故障、异常一步区分:世界模型+四足机器人的仪表巡检方案

原创
作者头像
CoovallyAIHub
发布2026-03-13 13:11:02
发布2026-03-13 13:11:02
1720
举报

【导读】 工业巡检机器人在执行仪表读数任务时,经常面临遮挡、视角不佳、光照异常等问题,导致读数失败甚至误读。如何让机器人在运行时自动识别"成功读取""已知故障"和"未知异常"这三类情况,并且比人类观察者更早做出判断?2026年2月,斯坦福大学与 Field AI 联合发表了一篇研究论文,提出了一种结合监督式故障分类异常检测的混合框架,以世界模型为骨干网络,利用保形预测(Conformal Prediction)校准阈值,在仪表巡检任务中实现了三分类准确率超过90%的效果,并在 Boston Dynamics Spot 四足机器人上完成了实时部署验证。

论文标题: World Model Failure Classification and Anomaly Detection for Autonomous Inspection 作者: Michelle Ho, Muhammad Fadhil Ginting, Isaac R. Ward, Andrzej Reinke, Mykel J. Kochenderfer, Ali-akbar Agha-Mohammadi, Shayegan Omidshafiei 机构: Stanford University, Field AI 论文链接: arXiv:2602.16182v1


一、遮挡、眩光、视角不佳——仪表巡检的常见失败场景

工业场景中,移动机器人被越来越多地用于替代人工进行仪表巡检,以降低成本、提高一致性,并减少人员在危险环境中的暴露风险。足式机器人已在海上高压平台、需要风险感知规划与语义建图的不确定环境中得到测试。行业内的 Boston Dynamics、Energy Robotics、ANYbotics 等公司也在推动热力监测、声学监测、3D 建图和仪表读数等自动化巡检任务的落地。

然而,更高的自主程度也引入了新的风险。例如,如果机器人漏读一个高压系统上的危险数值,异常就可能升级为重大安全隐患。在实际部署中,机器人的视觉感知会受到多种因素的影响:

  • 已知故障:仪表被其他设备部分或完全遮挡、视角过大导致无法准确读数、仪表未进入视野等;
  • 未知异常(OOD):阴影、眩光、模糊、光线不足等训练时未见过的环境条件。
screenshot_2026-03-12_14-36-19.png
screenshot_2026-03-12_14-36-19.png

图片来源于原论文

传统的分布外检测(OOD Detection)方法虽然可以发出预警,但无法告知机器人"出了什么问题"以及"该如何应对"。纯粹的故障分类方法又无法处理训练中从未见过的新情况。因此,需要一种能够同时处理已知故障分类和未知异常检测的统一框架。


二、一个世界模型骨干,两个决策函数,三种分类结果

2.1 整体框架设计

本文提出的框架核心思想是:用两个决策函数分别判断"是否为成功"和"是否为已知故障",并通过两者的组合来推断三种分类结果。

screenshot_2026-03-12_14-35-45.png
screenshot_2026-03-12_14-35-45.png

图片来源于原论文

具体而言,框架包含两个决策函数:

  • D_success:基于成功数据训练的模型,判断当前轨迹是否偏离了成功模式;
  • D_fail:基于失败数据训练的模型,判断当前轨迹是否偏离了已知故障模式。

三分类的判定逻辑如下:

D_success

D_fail

分类结果

0(在成功分布内)

1(不在故障分布内)

成功

1(不在成功分布内)

0(在故障分布内)

已知故障

1

1

异常(OOD)

这种设计的优势在于:如果一条轨迹既不像成功、也不像已知故障,则被判定为 OOD——这正是"两边都拒绝"的逻辑。

2.2 世界模型骨干网络

screenshot_2026-03-12_14-36-08.png
screenshot_2026-03-12_14-36-08.png

图片来源于原论文

框架使用世界模型作为骨干网络来预测未来帧。具体流程为:

  1. 输入帧压缩:将原始 1200×700 图像压缩至 512×288,以降低显存占用和加速训练;
  2. Cosmos 编码器:使用 NVIDIA Cosmos Tokenizer(连续视频版本)将图像编码为隐空间表示,权重冻结不参与训练;
  3. 隐空间世界模型:在隐空间中根据当前帧的表示 z_t 预测下一帧的表示 z_{t+1};
  4. Cosmos 解码器:将预测的隐空间表示解码回像素空间;
  5. 计算异常分数:通过预测误差等指标衡量偏离程度。

论文采用了一个复合损失函数进行训练:

L_total = L_rec + (L_rec − L_cross) + 0.5 × L_hyb

其中,L_rec 是加权像素损失(MSE + SSIM),L_cross 强制时间一致性(鼓励预测帧更接近下一帧而非当前帧),L_hyb 结合了隐空间预测误差、感知相似性(LPIPS)和弱中心区域先验。每个模型的训练耗时约34小时,采用了早停策略。

2.3 保形预测阈值校准

框架使用保形预测(Conformal Prediction, CP) 来校准异常检测阈值,这使得整个框架具有以下特性:

  • 策略无关(Policy-agnostic):不依赖于机器人的控制策略;
  • 分布自由(Distribution-free):不假设数据的特定分布形式;
  • 兼容多种评分方法

校准过程如下:

  1. 对每个训练好的模型(成功模型和故障模型),分别使用成功校准集故障校准集计算异常分数;
  2. 对每条轨迹取帧对分数的最大值作为轨迹级分数(避免时间相关性的影响);
  3. 在选定的分位数水平 (1−α) 处设置阈值 η_s 和 η_f;
  4. 运行时,新视频的分数超过阈值则触发对应的决策。

论文测试了7种CP评分方法,涵盖残差类、距离类和其他类型(详见下文实验部分)。


三、用了哪些数据,怎么评估?

3.1 数据集

论文针对仪表巡检任务,在办公环境工业现场两个场景下采集了数据,共计290段视频,每段平均时长约10秒。数据集划分如下:

用途

成功视频

故障视频

OOD视频

训练集

14

14

验证集

6

6

CP校准集

45

37

测试集

45

37

53

已知故障类型包括:仪表未进入视野、仪表或指针被部分遮挡、视角过大无法准确读数。OOD 类型包括:阴影、眩光、模糊、光线不足等导致无法获取读数的情况。

3.2 评分方法

论文测试了以下7种CP评分方法:

方法

类型

描述

重建误差

残差类

输入与重建之间的像素级误差

隐空间预测误差

残差类

预测隐表示与实际下一帧隐表示之间的偏差

隐空间标准差

残差类

隐空间嵌入的时间标准差

马氏距离

距离类

隐空间嵌入到估计高斯分布的平方距离

隐空间L2距离

距离类

隐空间嵌入到校准均值的欧氏距离

隐空间余弦距离

距离类

隐空间向量方向对齐度的余弦相似性补数

训练损失

其他

模型的逐样本训练损失


四、哪种评分方法表现最好?

4.1 分类准确率

在90%分位数阈值下,各评分方法的分类准确率如下(论文 Table II):

评分方法

OOD检测(成功模型)

OOD检测(故障模型)

OOD总体

故障总体

成功总体

重建误差

52.83%

49.06%

49.06%

48.65%

40.00%

隐空间预测误差

94.34%

90.57%

90.57%

91.89%

91.11%

隐空间标准差

64.15%

52.83%

52.83%

59.46%

33.33%

马氏距离

100.00%

100.00%

100.00%

90.00%

90.00%

隐空间L2距离

75.47%

54.72%

54.72%

81.08%

40.00%

隐空间余弦距离

45.28%

43.40%

39.62%

67.57%

42.22%

训练损失

90.57%

84.91%

84.91%

89.19%

80.00%

关键发现:

  • 隐空间预测误差表现最为稳定,在90%分位数下,三类分类准确率均超过90%(OOD: 90.57%,故障: 91.89%,成功: 91.11%);
  • 马氏距离的 OOD 检测准确率达到100%,但存在过拟合校准集的问题——在高维设置中协方差矩阵求逆可能不稳定,会将视觉上不同但属于正常的成功样本误判为 OOD;
  • 重建误差余弦距离表现较差。重建误差表现不佳的原因在于 Cosmos 本身就是为重建任务预训练的,即使对故障视频也能生成较好的重建结果,留给异常信号的空间有限;余弦距离在高维隐空间中缺乏一致的主方向,平均向量的定义不够明确;
  • 训练损失能较好地分类正常数据,但由于缺乏对比信号,对异常的放大能力不足。

论文还发现,成功模型的检测范围始终包含了故障模型检测到的所有 OOD 案例。这可能是因为故障模型训练时接触了多种故障类型,分布更分散;而成功模型只训练在单一、更一致的成功模式上,因此分离度更好。

4.2 检测时间:比人类观察者更早

论文使用95%分位数阈值评估了框架与人类观察者之间的检测时间差异(论文 Table III,负值表示比人类更早):

评分方法

OOD(成功模型)

OOD(故障模型)

成功(故障模型)

故障(成功模型)

重建误差

−2.06 ± 0.58 s

−2.13 ± 0.61 s

−2.57 ± 0.69 s

−1.65 ± 0.89 s

隐空间预测误差

−1.84 ± 0.41 s

−2.52 ± 0.49 s

−3.53 ± 0.45 s

−3.44 ± 0.53 s

马氏距离

−5.97 ± 0.44 s

−5.97 ± 0.44 s

−9.01 ± 0.19 s

−8.64 ± 0.62 s

训练损失

+1.95 ± 1.16 s

+2.09 ± 1.05 s

+0.66 ± 1.55 s

+0.93 ± 1.12 s

几乎所有指标(训练损失除外)都能在人类观察者之前做出分类判断。其中:

  • 隐空间预测误差平均比人类提前1到3秒做出分类,且标准误差在所有指标中几乎一致为最低,说明其判断稳定性好;
  • 马氏距离虽然检测最早(提前约6-9秒),但因其过拟合倾向,可能带来较高的误报率;
  • 训练损失是唯一晚于人类的指标,因为损失函数放大的是正常模式而非异常信号。

4.3 压缩率影响

论文还测试了更高压缩率(从 1200×700 压缩至 256×144,比标准设置高50%)的效果。隐空间预测误差在更高压缩下准确率略有提升(90%阈值下 OOD 检测从94.34%升至96.23%),而重建误差的表现也有所改善。这表明更激进的压缩反而有助于剥离冗余视觉细节,保留更具判别性的异常信号。

4.4 硬件部署验证

screenshot_2026-03-12_14-36-41.png
screenshot_2026-03-12_14-36-41.png

图片来源于原论文

论文在 Boston Dynamics Spot 机器人上进行了实时部署验证。该机器人配备了 LiDAR、导航摄像头和用于仪表检测的 PTZ 摄像头。运行时逻辑如下:

  • 成功:机器人保持空闲,等待前往下一个仪表;
  • 已知故障:记录故障仪表,在所有仪表巡检完毕后重新访问;
  • OOD(如读数模糊):机器人执行变焦操作,重新采集图像。

整套流水线仅需约 1.5 GB 存储空间,其中预训练的 Cosmos 权重约1.3 GB,分类模型约60 MB,CP辅助文件不到5 MB。由于共享使用限制,推理在外部服务器运行,单次分类约需3分钟(主要受网络延迟影响)。论文指出,如将模型部署在机器人本地,实际评分可以近乎实时完成。


五、方法优势与未来方向

优势

  1. 统一框架:在单一世界模型骨干上同时实现故障分类和异常检测,避免了多架构的复杂性;
  2. 策略无关、分布自由:基于保形预测的阈值校准不依赖控制策略或数据分布假设,适用范围广;
  3. 提前预警:多数指标能比人类观察者更早做出判断,为纠正动作争取时间;
  4. 轻量部署:整体存储不到1.5 GB,适合边缘部署。

未来方向

  • CP阈值为静态:当部署环境与校准数据存在分布漂移时,固定阈值可能导致检测率偏移。论文提出可引入鞅(Martingale)方法和自适应时变阈值来应对;
  • 维度缩减依赖人工:当前仅使用手动降维,未来可结合 SVD 等方法进一步提升效率;
  • 语义理解有限:框架基于像素和隐空间层面的预测误差,缺乏对场景的高层语义理解,融入语义故障检测可能有助于识别更复杂的故障模式;
  • 双模型开销:当前需要分别存储和运行成功模型与故障模型,未来可训练带有分类头的单一模型以降低计算负担。

六、总结

本文提出了一种基于世界模型和保形预测的混合框架,用于自主巡检任务中的故障分类与异常检测。该框架通过两个决策函数的组合,将巡检结果划分为成功、已知故障和 OOD 三类。在仪表巡检数据集上的实验表明,隐空间预测误差作为评分方法,在90%分位数阈值下可达到三类均超过90%的分类准确率,且检测时间比人类观察者平均提前1至3秒。框架已在 Boston Dynamics Spot 机器人上完成实时部署验证,存储开销仅约1.5 GB。这项工作为工业巡检场景下的自主故障监测提供了一种实用的技术路径,也可作为训练数据质量评估和针对性数据采集的反馈信号。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、遮挡、眩光、视角不佳——仪表巡检的常见失败场景
  • 二、一个世界模型骨干,两个决策函数,三种分类结果
    • 2.1 整体框架设计
    • 2.2 世界模型骨干网络
    • 2.3 保形预测阈值校准
  • 三、用了哪些数据,怎么评估?
    • 3.1 数据集
    • 3.2 评分方法
  • 四、哪种评分方法表现最好?
    • 4.1 分类准确率
    • 4.2 检测时间:比人类观察者更早
    • 4.3 压缩率影响
    • 4.4 硬件部署验证
  • 五、方法优势与未来方向
    • 优势
    • 未来方向
  • 六、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档