混合查询Transformer实现图像分割跨任务扩展

原创

用户11764306

发布于 2026-03-17 08:19:50

1070

在提交至2025年计算机视觉与模式识别会议（CVPR）的论文中，介绍了一种能跨多样化数据集和任务进行扩展的图像分割新方法。传统的分割模型在孤立任务上效果显著，但随着新任务或不熟悉场景数量的增加，其性能往往难以保证。提出的方法采用了一种称为混合查询Transformer（MQ-former）的模型，旨在实现跨多个任务和数据集的联合训练与评估。

可扩展的分割

图像分割是一项计算机视觉任务，涉及将图像划分为不同的区域或片段。每个片段对应场景中的一个不同对象或部分。分割任务有多种类型，包括前景/背景分割（区分不同距离的物体）、语义分割（将每个像素标记为属于特定对象类别）以及实例分割（识别每个像素属于对象类别的特定实例）。

“可扩展性”指的是分割模型能够随着训练数据集的规模、所执行任务的多样性或两者兼而有之的增加而有效提升性能。以往的研究大多只关注其中一个方面——数据多样性或任务多样性。而此项工作同时解决了这两个问题。

两种查询的故事

在论文中，揭示了阻碍分割模型有效扩展的一个问题在于对象查询的设计。对象查询是一种表示对场景中物体假设的方式——这种假设可以与图像进行比对验证。

对象查询主要有两种类型。第一种称为“可学习查询”，它们是学习到的向量，与图像特征交互并编码关于位置和对象类别的信息。可学习查询在语义分割上往往表现良好，因为它们不包含对象特定的先验知识。

第二种对象查询称为“条件查询”，类似于两阶段目标检测：由Transformer编码器生成候选区域，然后将高置信度的候选区域作为查询馈送到Transformer解码器以生成最终预测。条件查询与对象类别紧密对齐，在语义定义明确的对象上，擅长目标检测和实例分割。

提出的方法是结合这两种查询类型，这提高了模型跨任务迁移的能力。MQ-Former模型同时使用可学习查询和条件查询来表示输入，并且解码器的每一层都设有交叉注意力机制，使得可学习查询的处理能够参考条件查询处理中的信息，反之亦然。

利用合成数据

混合查询有助于提升模型在分割任务间的可扩展性，但分割模型可扩展性的另一个方面是数据集的大小。扩展分割模型的主要挑战之一是缺乏高质量、已标注的数据。为克服此限制，提出利用合成数据。

虽然分割数据稀缺，但对象识别数据却相当丰富。对象识别数据集通常包含边界框，即标识图像中包含已标注对象的矩形区域。

让一个训练好的分割模型仅分割边界框内的对象，可以显著提升性能；因此，能够使用较弱的分割模型将对象识别数据集转换为可用于训练更强分割模型的分割数据集。