CVPR 2026 Findings | 刷新零样本异常检测SOTA！中科院提出CoPS：让CLIP学会“看图生成提示词”

Amusi

发布于 2026-05-11 14:49:59

文章被收录于专栏：CVerCVer

论文：CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection 会议：CVPR 2026 Findings 作者：Qiyu Chen, Zhen Qu, Wei Luo, Haiming Yao, Yunkang Cao, Yuxin Jiang, Yinan Duan, Huiyuan Luo, Chengkan Lv, Zhengtao Zhang 院校：中国科学院自动化研究所，清华大学，湖南大学，华中科技大学团队：中科院自动化所工业视觉实验室论文：arxiv.org/abs/2508.03447 代码：github.com/cqylunlun/CoPS

一句话总结

现有 CLIP 异常检测方法大多依赖人工 prompt 或静态可学习 prompt，难以覆盖复杂多变的正常/异常状态。CoPS 提出 Conditional Prompt Synthesis，根据输入图像的视觉特征动态合成 prompt，在 13 个工业与医学异常检测数据集上同时提升图像级分类和像素级分割性能。

CoPS 与已有 CLIP 异常检测 prompt 范式对比

这篇工作解决什么问题？

异常检测的目标是发现与正常分布不一致的样本，例如工业零件缺陷、医学病灶区域等。传统异常检测方法通常只在某个已知类别上训练，例如只学习“螺丝”或“药片”的正常模式，因此一旦测试类别变化，泛化能力就会明显下降。

近年来，CLIP 这类视觉语言模型让 Zero-Shot Anomaly Detection, ZSAD 成为可能：模型只在一个辅助数据集上微调，就希望迁移到未见过的工业或医学类别上完成异常分类与定位。

但 prompt 是关键瓶颈。已有 CLIP 异常检测方法大致分为两类：一类是 Prompt Design，也就是人工设计正常/异常模板，例如 “a photo of a perfect object”。这种方式可解释、无需训练复杂 prompt，但依赖专家经验，调模板成本较高。另一类是 Prompt Learning，将部分文本 token 设为可学习参数，能减少人工模板设计，却仍然是静态 token，无法随输入图像的状态变化而变化。

论文指出，现有 prompt learning 仍有两个核心问题：

第一，状态 token 过于离散。“正常/异常”并不是简单二值，而是连续且多样的视觉状态，静态 token 很难覆盖未见类别中的复杂缺陷形态。第二，类别 token 信息稀疏。固定类别词或 class-agnostic 文本难以表达复杂视觉语义，模型容易过拟合到狭窄的语义空间。

CoPS 的核心思想是：prompt 不应该只是一组固定参数，而应该根据当前图像条件动态合成。

方法概览：把“视觉条件”注入 prompt

CoPS 基于 CLIP 构建，保留 CLIP 预训练视觉语言对齐能力，同时引入三个模块。ESTS, Explicit State Token Synthesis 从局部 patch 特征中提取正常/异常原型，并显式注入 state token；ICTS, Implicit Class Token Sampling 使用 VAE 建模全局语义特征，采样多样化 class token；SAGA, Spatially-Aware Glocal Alignment 则结合空间注意力与全局-局部对齐，输出图像级分类分数和像素级分割热图。

CoPS 整体框架

1. ESTS：从图像 patch 中提取“正常/异常原型”

异常状态不是一句 “damaged” 或一个静态 token 就能概括的。不同缺陷可能表现为裂纹、污渍、缺失、变形、病灶边界等，它们在视觉空间中更像连续分布。

CoPS 让模型从输入图像的细粒度 patch 特征中提取两组代表性原型：Normal prototypes 表达与正常区域更接近的局部视觉模式，并注入 normal prompt 的 state token；Anomaly prototypes 表达与异常区域更接近的局部视觉模式，并注入 anomaly prompt 的 state token。

这些原型通过 center loss 约束：正常 patch 更靠近 normal prototype，异常 patch 更靠近 anomaly prototype。这样，prompt 中的“正常/异常状态”不再是固定文本，而是来自当前图像的视觉证据。

2. ICTS：用 VAE 扩展类别语义，不再依赖稀疏类别词

在零样本异常检测中，测试类别往往未见过。如果只使用固定类别名，或者干脆用 “object” 这类 class-agnostic 文本，类别语义会非常稀疏。

CoPS 使用 VAE 对 CLIP 全局图像特征进行建模：

将图像全局特征编码为潜变量分布；
从潜空间采样多个语义特征；
解码得到一组多样化 class token；
将这些 token 注入 normal/anomaly prompt。

这样做的好处是，模型不再依赖单一类别词，而是通过分布采样获得更丰富的类别语义表达，从而提升跨类别泛化能力。

3. SAGA：把局部定位和全局分类对齐起来

异常检测同时需要两件事：图像级分类要判断“这张图是否异常”，依赖全局语义；像素级分割要回答“异常在哪里”，依赖细粒度局部定位。

SAGA 通过 prototype distance 构造空间注意力 mask，让更可能异常的区域在局部相似度图中获得更高权重。同时，它将全局图像特征与局部最大响应结合，形成 glocal alignment，从而兼顾整体判断和局部定位。

ESTS 原型匹配与 SAGA 空间注意力

实验设置

论文在 13 个公开数据集上评估 CoPS，覆盖工业异常与医学病灶两个领域。工业异常检测数据集包括 MVTec-AD、VisA、BTAD、MPDD 和 DTD-Synthetic；医学异常检测数据集包括 HeadCT、BrainMRI、Br35H、ISIC、CVC-ColonDB、CVC-ClinicDB、Kvasir 和 Endo。

训练策略遵循 ZSAD 设定：在一个辅助数据集上训练，再迁移到类别不重叠的数据集上测试。例如，除 VisA 评估外，论文使用 VisA 作为辅助训练集，并在其余工业/医学数据集上测试；评估 VisA 时则使用 MVTec-AD 训练。

实现细节方面，CoPS 采用 OpenAI CLIP ViT-L/14@336px，输入图像 resize 到 518×518，训练 10 个 epoch，batch size 为 8，实验硬件为单张 NVIDIA RTX 3090。