ICLR 2026 | MedAgent-Pro：用 Agent 工作流模拟临床医生的循证诊断过程

原创

CoovallyAIHub

发布于 2026-03-20 14:42:33

380

导读

多模态大模型（MLLM）在医学影像诊断上有一个根本性矛盾：它们能"看"图像、能"说"结论，但做不好临床诊断中最关键的一步——定量分析。测量杯盘比、计算射血分数、评估组织厚度，这些需要精确数值的操作是 MLLM 的短板。更严重的是，MLLM 在推理过程中容易产生幻觉和不一致，这在临床场景中不可接受。

MedAgent-Pro 的思路是不让 MLLM 直接做诊断，而是让它扮演临床医生的角色——先查指南、制定计划、调用专业工具做定量分析、最后综合证据决策。在青光眼和心脏病两个诊断任务上，MedAgent-Pro 的 MOE 决策模式以 90.4% 和 66.8% 的准确率大幅超越通用 MLLM 和专用模型。

论文信息

标题：MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow
作者：Ziyue Wang, Junde Wu, Linghan Cai, Chang Han Low, Xihong Yang, Qiaxuan Li, Yueming Jin
机构：新加坡国立大学（NUS）、牛津大学（University of Oxford）
发表：ICLR 2026（arXiv 2503.18968）
代码：https://github.com/jinlab-imvr/MedAgent-Pro

一、MLLM 做医学诊断的瓶颈在哪里

论文首先用实验展示了现有 MLLM 在医学诊断上的表现：

模型	青光眼 mACC	青光眼 F1	心脏病 mACC	心脏病 F1
LLaVA-Med	50.0	0.0	50.0	0.0
Janus-Pro-7B	53.4	13.3	52.3	10.7
BioMedClip	58.1	21.3	47.0	37.8

LLaVA-Med 和 Janus-Pro-7B 的 F1 接近 0，说明它们基本在随机猜测。即使是专门针对医学的 BioMedClip，准确率也仅略高于 50%。

核心问题在于：临床诊断不是"看一眼图片给个结论"，而是一个多步骤、多指标、循证的推理过程。比如青光眼诊断需要测量杯盘比（vCDR）、评估盘沿厚度（RT）、检查视盘周围萎缩（PPA）和盘沿出血（DH），任何单一视觉特征都不足以做出准确判断。

二、MedAgent-Pro 的两层 Agent 架构

MedAgent-Pro 将诊断过程分为任务层和案例层两个层级。

图片来源于原论文

任务层：基于知识的诊断计划生成

对于每种疾病，任务层执行以下流程：

RAG Agent：从 MedlinePlus 等医学指南库检索该疾病的临床诊断标准
Planner Agent（GPT-4o）：根据检索到的临床标准，生成结构化的诊断计划

诊断计划输出为一组三元组：(对象, 工具, 操作)。例如青光眼的计划可能包括：

（视盘/视杯, 分割工具, 测量杯盘比）
（视盘边缘, 分割工具, 评估盘沿厚度）
（视盘周围区域, VQA 工具, 检查萎缩征象）
（眼底图像, 分类工具, 检测盘沿出血）

这一层的关键价值是：诊断计划来自临床指南，而非模型自己编造。

案例层：针对单个患者的循证执行

对每个具体患者的影像，案例层按计划逐步执行：

Orchestrator Agent：分析患者数据，选择诊断计划中的相关步骤
Tool Agents：调用专业医学工具（分割、定位、VQA 模型）处理影像
Coding Agent：将工具输出转化为定量指标（如杯盘比的具体数值）
Summary Agent：汇总各项指标的分析结果
Decider Agent：综合证据做出最终诊断

在代码实现中，工具接口统一为 Function(image_path, save_dir, save_name)，方便接入不同的医学影像分析工具。

三、两种决策模式：LLM vs MOE

MedAgent-Pro 提供两种最终决策方式：

LLM Decider：由 GPT-4o 直接综合各项指标做出诊断判断。

MOE（Mixture-of-Experts）Decider：用加权评分公式做决策：

其中取值为 1（异常）、0.5（不确定）或 0（正常），为各指标权重。当时判定为患病。

实验结果表明 MOE Decider 在两个任务上大幅优于 LLM Decider：

决策模式	青光眼 mACC	青光眼 F1	心脏病 mACC	心脏病 F1
MedAgent-Pro (LLM)	75.9	44.8	63.8	44.1
MedAgent-Pro (MOE)	90.4	76.4	66.8	52.6

MOE 在青光眼上比 LLM 高 14.5% mACC，说明结构化的加权决策比让 LLM 自由推理更可靠——LLM 在综合多指标时容易受干扰或产生不一致的推理。

四、与专用模型的对比

在青光眼诊断上，MedAgent-Pro 不仅超越了通用 MLLM，还超越了专门的任务特定模型：

方法	AUC	mACC	F1
VUNO EYE TEAM（REFUGE2 排名第 1）	88.3	—	—
MIG（排名第 2）	87.6	—	—
MAI（排名第 3）	86.1	—	—
RetiZero	—	50.8	18.4
VisionUnite	—	85.8	73.1
MedAgent-Pro (MOE)	95.1	90.4	76.4