
【导读】 工业巡检机器人在执行仪表读数任务时,经常面临遮挡、视角不佳、光照异常等问题,导致读数失败甚至误读。如何让机器人在运行时自动识别"成功读取""已知故障"和"未知异常"这三类情况,并且比人类观察者更早做出判断?2026年2月,斯坦福大学与 Field AI 联合发表了一篇研究论文,提出了一种结合监督式故障分类与异常检测的混合框架,以世界模型为骨干网络,利用保形预测(Conformal Prediction)校准阈值,在仪表巡检任务中实现了三分类准确率超过90%的效果,并在 Boston Dynamics Spot 四足机器人上完成了实时部署验证。
论文标题: World Model Failure Classification and Anomaly Detection for Autonomous Inspection 作者: Michelle Ho, Muhammad Fadhil Ginting, Isaac R. Ward, Andrzej Reinke, Mykel J. Kochenderfer, Ali-akbar Agha-Mohammadi, Shayegan Omidshafiei 机构: Stanford University, Field AI 论文链接: arXiv:2602.16182v1
工业场景中,移动机器人被越来越多地用于替代人工进行仪表巡检,以降低成本、提高一致性,并减少人员在危险环境中的暴露风险。足式机器人已在海上高压平台、需要风险感知规划与语义建图的不确定环境中得到测试。行业内的 Boston Dynamics、Energy Robotics、ANYbotics 等公司也在推动热力监测、声学监测、3D 建图和仪表读数等自动化巡检任务的落地。
然而,更高的自主程度也引入了新的风险。例如,如果机器人漏读一个高压系统上的危险数值,异常就可能升级为重大安全隐患。在实际部署中,机器人的视觉感知会受到多种因素的影响:

图片来源于原论文
传统的分布外检测(OOD Detection)方法虽然可以发出预警,但无法告知机器人"出了什么问题"以及"该如何应对"。纯粹的故障分类方法又无法处理训练中从未见过的新情况。因此,需要一种能够同时处理已知故障分类和未知异常检测的统一框架。
本文提出的框架核心思想是:用两个决策函数分别判断"是否为成功"和"是否为已知故障",并通过两者的组合来推断三种分类结果。

图片来源于原论文
具体而言,框架包含两个决策函数:
三分类的判定逻辑如下:
D_success | D_fail | 分类结果 |
|---|---|---|
0(在成功分布内) | 1(不在故障分布内) | 成功 |
1(不在成功分布内) | 0(在故障分布内) | 已知故障 |
1 | 1 | 异常(OOD) |
这种设计的优势在于:如果一条轨迹既不像成功、也不像已知故障,则被判定为 OOD——这正是"两边都拒绝"的逻辑。

图片来源于原论文
框架使用世界模型作为骨干网络来预测未来帧。具体流程为:
论文采用了一个复合损失函数进行训练:
L_total = L_rec + (L_rec − L_cross) + 0.5 × L_hyb
其中,L_rec 是加权像素损失(MSE + SSIM),L_cross 强制时间一致性(鼓励预测帧更接近下一帧而非当前帧),L_hyb 结合了隐空间预测误差、感知相似性(LPIPS)和弱中心区域先验。每个模型的训练耗时约34小时,采用了早停策略。
框架使用保形预测(Conformal Prediction, CP) 来校准异常检测阈值,这使得整个框架具有以下特性:
校准过程如下:
论文测试了7种CP评分方法,涵盖残差类、距离类和其他类型(详见下文实验部分)。
论文针对仪表巡检任务,在办公环境和工业现场两个场景下采集了数据,共计290段视频,每段平均时长约10秒。数据集划分如下:
用途 | 成功视频 | 故障视频 | OOD视频 |
|---|---|---|---|
训练集 | 14 | 14 | — |
验证集 | 6 | 6 | — |
CP校准集 | 45 | 37 | — |
测试集 | 45 | 37 | 53 |
已知故障类型包括:仪表未进入视野、仪表或指针被部分遮挡、视角过大无法准确读数。OOD 类型包括:阴影、眩光、模糊、光线不足等导致无法获取读数的情况。
论文测试了以下7种CP评分方法:
方法 | 类型 | 描述 |
|---|---|---|
重建误差 | 残差类 | 输入与重建之间的像素级误差 |
隐空间预测误差 | 残差类 | 预测隐表示与实际下一帧隐表示之间的偏差 |
隐空间标准差 | 残差类 | 隐空间嵌入的时间标准差 |
马氏距离 | 距离类 | 隐空间嵌入到估计高斯分布的平方距离 |
隐空间L2距离 | 距离类 | 隐空间嵌入到校准均值的欧氏距离 |
隐空间余弦距离 | 距离类 | 隐空间向量方向对齐度的余弦相似性补数 |
训练损失 | 其他 | 模型的逐样本训练损失 |
在90%分位数阈值下,各评分方法的分类准确率如下(论文 Table II):
评分方法 | OOD检测(成功模型) | OOD检测(故障模型) | OOD总体 | 故障总体 | 成功总体 |
|---|---|---|---|---|---|
重建误差 | 52.83% | 49.06% | 49.06% | 48.65% | 40.00% |
隐空间预测误差 | 94.34% | 90.57% | 90.57% | 91.89% | 91.11% |
隐空间标准差 | 64.15% | 52.83% | 52.83% | 59.46% | 33.33% |
马氏距离 | 100.00% | 100.00% | 100.00% | 90.00% | 90.00% |
隐空间L2距离 | 75.47% | 54.72% | 54.72% | 81.08% | 40.00% |
隐空间余弦距离 | 45.28% | 43.40% | 39.62% | 67.57% | 42.22% |
训练损失 | 90.57% | 84.91% | 84.91% | 89.19% | 80.00% |
关键发现:
论文还发现,成功模型的检测范围始终包含了故障模型检测到的所有 OOD 案例。这可能是因为故障模型训练时接触了多种故障类型,分布更分散;而成功模型只训练在单一、更一致的成功模式上,因此分离度更好。
论文使用95%分位数阈值评估了框架与人类观察者之间的检测时间差异(论文 Table III,负值表示比人类更早):
评分方法 | OOD(成功模型) | OOD(故障模型) | 成功(故障模型) | 故障(成功模型) |
|---|---|---|---|---|
重建误差 | −2.06 ± 0.58 s | −2.13 ± 0.61 s | −2.57 ± 0.69 s | −1.65 ± 0.89 s |
隐空间预测误差 | −1.84 ± 0.41 s | −2.52 ± 0.49 s | −3.53 ± 0.45 s | −3.44 ± 0.53 s |
马氏距离 | −5.97 ± 0.44 s | −5.97 ± 0.44 s | −9.01 ± 0.19 s | −8.64 ± 0.62 s |
训练损失 | +1.95 ± 1.16 s | +2.09 ± 1.05 s | +0.66 ± 1.55 s | +0.93 ± 1.12 s |
几乎所有指标(训练损失除外)都能在人类观察者之前做出分类判断。其中:
论文还测试了更高压缩率(从 1200×700 压缩至 256×144,比标准设置高50%)的效果。隐空间预测误差在更高压缩下准确率略有提升(90%阈值下 OOD 检测从94.34%升至96.23%),而重建误差的表现也有所改善。这表明更激进的压缩反而有助于剥离冗余视觉细节,保留更具判别性的异常信号。

图片来源于原论文
论文在 Boston Dynamics Spot 机器人上进行了实时部署验证。该机器人配备了 LiDAR、导航摄像头和用于仪表检测的 PTZ 摄像头。运行时逻辑如下:
整套流水线仅需约 1.5 GB 存储空间,其中预训练的 Cosmos 权重约1.3 GB,分类模型约60 MB,CP辅助文件不到5 MB。由于共享使用限制,推理在外部服务器运行,单次分类约需3分钟(主要受网络延迟影响)。论文指出,如将模型部署在机器人本地,实际评分可以近乎实时完成。
本文提出了一种基于世界模型和保形预测的混合框架,用于自主巡检任务中的故障分类与异常检测。该框架通过两个决策函数的组合,将巡检结果划分为成功、已知故障和 OOD 三类。在仪表巡检数据集上的实验表明,隐空间预测误差作为评分方法,在90%分位数阈值下可达到三类均超过90%的分类准确率,且检测时间比人类观察者平均提前1至3秒。框架已在 Boston Dynamics Spot 机器人上完成实时部署验证,存储开销仅约1.5 GB。这项工作为工业巡检场景下的自主故障监测提供了一种实用的技术路径,也可作为训练数据质量评估和针对性数据采集的反馈信号。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。