
工业异常检测(IAD)从数据准备到模型训练,每一步都需要大量人工介入。现有的通用 Agent 框架(如 openHands、openManus)虽然能写代码,但缺乏工业视觉的领域知识,直接用于 IAD 任务时存在严重幻觉、Agent 间协调差、长流程执行不稳定等问题。
AutoIAD 提出了一种 Manager 驱动的多 Agent 协作框架,专门针对工业异常检测设计:一个 Manager Agent 统筹全局,调度数据准备、数据加载、模型设计、训练四个专业子 Agent,并集成领域知识库提供数据增强策略、模型模板和训练脚本。
在 MVTec AD 数据集的 15 个建模任务上,AutoIAD 以 88.3% 的任务成功率和 63.69% 的平均 AUROC显著超越 openHands(73.3%、53.88%)和 openManus(50.0%、48.09%),通用 AutoML 框架(MLAgent-Bench、AutoML-Agent)则完全失败(0%)。消融实验表明,去掉 Manager Agent 后 AUROC 从 63.69% 骤降至 35.01%,去掉领域知识库后成功率从 88.3% 降至 60.0% 且 AUROC 归零。本文将拆解 AutoIAD 的架构设计、实验结果与关键发现。
论文标题:AutoIAD: Manager-Driven Multi-Agent Collaboration for Automated Industrial Anomaly Detection 作者:Dongwei Ji, Bingzhang Hu, Yi Zhou 机构:东南大学(教育部新一代人工智能技术及其跨学科应用重点实验室)、合肥中科迪宏自动化有限公司 发表:arXiv:2508.05503 代码:https://github.com/ji2814/AutoIAD
工业异常检测的完整流程包括:数据探索与预处理、数据增强与加载、模型选择与设计、训练与调参评估。这条流水线环节多、领域知识密集——需要知道哪些数据增强策略适合工业图像,哪些模型架构(重建型、特征嵌入型、归一化流)适合不同缺陷类型。
现有通用 Agent 框架的问题在于:
实验数据直接证明了这一点:MLAgent-Bench 和 AutoML-Agent 在 15 个 MVTec AD 任务上的成功率为 **0%**——完全无法完成工业异常检测的端到端流程。
AutoIAD 采用 "一个管理者 + 四个专家"的架构:

Manager Agent(中央调度)
Manager 是整个系统的大脑。它接收用户的高层任务描述(通过 TaskCard 定义:任务类型、模型名称、评估指标、数据集路径),将其分解为可执行的子任务,分配给对应的子 Agent,并对每个子 Agent 的输出进行质量验证。如果输出不达标,Manager 会启动迭代修正。
四个专业子 Agent
子 Agent | 职责 | 关键能力 |
|---|---|---|
Data Preparation | 将原始数据集转换为标准 CSV 格式 | 探索目录结构、分析元数据 |
Data Loader | 创建 PyTorch 兼容的数据加载器 | 随机拆分、数据增强策略 |
Model Designer | 从领域模板中选择/设计 IAD 模型 | 迭代调试、确保架构可用 |
Trainer | 管理超参调优、训练迭代、检查点保存 | AUROC 评估、性能优化 |
四个子 Agent 共享一个工作空间,各自完成任务后更新状态,Manager 持续监控直到系统达到终止条件。

AutoIAD 的领域知识库包含三个核心组件:
1. 数据增强策略库
预定义了适合工业图像的增强方法:resize、水平翻转、高斯噪声等。
2. 结构化模型定义
提供三类 IAD 模型的标准化模板:
子 Agent 不需要从零设计模型架构,而是基于模板进行适配。
3. 标准化训练脚本与超参指导
包含经过验证的训练流程和超参数优化策略,确保训练过程的稳定性。
消融实验证明了知识库的关键作用:去掉知识库后,即使任务能完成(60.0% 成功率),产出的模型 AUROC 为 0——流水线跑通了,但训练出来的模型完全无效。
在 Gemini-2.5-Flash 作为后端的条件下,AutoIAD 与四个基线系统的对比:
系统 | 成功率 | AUROC (%) |
|---|---|---|
MLAgent-Bench | 0% | — |
AutoML-Agent | 0% | — |
openManus | 50.0% | 48.09 |
openHands | 73.3% | 53.88 |
AutoIAD | 88.3% | 63.69 |
通用 AutoML 框架完全失败,通用代码 Agent 能部分完成但模型质量差,AutoIAD 在成功率和模型性能上都显著领先。
LLM 后端 | 成功率 | AUROC (%) |
|---|---|---|
Gemini-2.5-Flash | 88.3% | 63.69 |
Qwen-Max | 77.8% | 25.71 |
Claude-3.7-Sonnet | 63.3% | — |
Qwen3-235B | 50.0% | 28.65 |
GPT-4o-Mini | 43.3% | 25.00 |
DeepSeek-v3 | 37.8% | 0.0 |
Gemini-2.5-Flash 在代码生成和工具编排能力上表现最优。不同 LLM 后端的表现差异很大,说明框架的实际效果高度依赖底层模型能力。
品类 | 成功率 | AUROC (%) |
|---|---|---|
Carpet | 4/4 | 98.15 |
Tile | 4/4 | 89.91 |
Metal Nut | 4/4 | 85.48 |
Transistor | 4/4 | 79.30 |
Hazelnut | 4/4 | 75.36 |
Bottle | 4/4 | 0.0 |
部分品类(如 Carpet 98.15%)效果很好,但 Bottle 品类虽然任务完成却 AUROC 为 0,说明框架在某些缺陷类型上仍有失败模式。
配置 | 成功率 | AUROC (%) |
|---|---|---|
完整 AutoIAD | 88.3% | 63.69 |
去掉 Manager Agent | 83.3% | 35.01 |
去掉领域知识库 | 60.0% | 0.0 |
AutoIAD 是专门为工业异常检测设计的多 Agent 自动化框架,核心贡献在于:
值得注意的局限性:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。