CVPR 2026 | 用一句话告诉 AI 分割什么——MedCLIPSeg 让医学图像分割不再需要海量标注

原创

CoovallyAIHub

发布于 2026-03-10 14:22:11

1560

假设你是一名放射科医生。

你面前有一张乳腺超声图像，你需要 AI 帮你标出肿瘤边界。

传统方法：你需要先准备几千张标注好的图像来训练模型，换个器官就得从头再来，换个医院的设备可能就不准了。

MedCLIPSeg 的方法：你输入一句话——"a hypoechoic mass with irregular margins in the upper breast region"（乳腺上方区域一个边缘不规则的低回声肿块）——AI 就能给你分割结果，附带一张不确定性地图告诉你"哪里我不太确定"。

而且，只用 10% 的标注数据，它就能超过很多用 100% 数据训练的方法。

这篇论文来自加拿大 Concordia 大学的 Taha Koleilat 团队，已被 CVPR 2026 接收，代码、模型和数据集已全部开源。

标题：MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation
作者：Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari, Berardino Barile, Yiming Xiao, Hassan Rivaz
机构：Concordia University, Montreal, Canada
会议：CVPR 2026
arXiv：2602.20423（2026.02.23）
代码：github.com/HealthX-Lab/MedCLIPSeg
模型/数据：huggingface.co/TahaKoleilat/MedCLIPSeg

医学图像分割的三重困境

在进入方法之前，先理解为什么这个问题如此棘手：

困境一：标注太贵。 医学图像的像素级标注需要专家逐个勾画，耗时耗力，而且不同专家画出来的都不一样。
困境二：边界模糊。 肿瘤和正常组织之间往往没有清晰的分界线，部分容积效应让决策变得困难。
困境三：域偏移。 换一台扫描仪、换一个医院、换一批患者，模型性能可能直接崩塌。而传统的分割模型在出错时还不会"告诉你它不确定"——它会以 99% 的信心给你一个错误答案。

MedCLIPSeg 一次性瞄准了这三个问题。

核心思路：让 CLIP "看懂"医学图像，还知道自己"看不看得准"

MedCLIPSeg 的设计思路可以拆成三层：

第一层：用文字引导分割

基于 CLIP 的图文对齐能力，MedCLIPSeg 用文字描述来引导分割——告诉模型"你要找的是什么"，模型就去图中对应位置分割。

为什么这有用？因为临床描述比像素标注容易获取得多。医生每天都在写报告描述病灶，但很少有时间去逐像素勾画。

第二层：概率化注意力——让模型知道自己"不确定"

这是论文最核心的创新。

传统的 CLIP 适配方案用确定性（deterministic）表示来融合图文信息。MedCLIPSeg 把注意力机制中的 Key 和 Value 建模为概率分布（均值 + 方差），而不是固定向量。

这意味着什么？

Key 的方差反映了图文匹配的不确定性→ 模型会自动降低不确定 token 的注意力权重
Value 的方差反映了特征本身的不确定性→ 通过蒙特卡洛采样，推理时生成多次预测，取均值作为分割结果，取熵作为逐像素不确定性地图

这种设计自然地捕获了两类不确定性：偶然不确定性（数据本身的模糊性，如边界模糊）和认知不确定性（模型未见过的分布）。

第三层：双向融合 + 软对比损失
双向 PVL Adapter：视觉 token 和文本 token 互相增强（vision→text + text→vision），而不是单向的文本注入图像
软对比损失：用 patch 级别的图文对比学习来保持 CLIP 的泛化能力，用软标签（而非硬标签）处理语义相似的文本描述

整个过程不修改 CLIP 的预训练参数，只训练新加入的轻量级 Adapter。