在2025年计算机视觉与模式识别会议(CVPR)上发表的一篇论文中,介绍了一种新的图像分割方法,该方法能够跨不同的数据集和任务进行扩展。传统的分割模型在孤立任务上表现有效,但随着新任务或不熟悉场景数量的增加,往往难以应对。提出的方法使用了一种称为混合查询变换器(MQ-former)的模型,旨在实现跨多个任务和数据集的联合训练与评估。
图像分割是一项计算机视觉任务,涉及将图像划分为不同的区域或片段。每个片段对应场景中的一个不同物体或部分。分割任务有几种类型,包括前景/背景分割(区分不同距离的物体)、语义分割(将每个像素标记为属于特定的物体类别)以及实例分割(将每个像素识别为属于某个物体类别的特定实例)。
“可扩展性”意味着分割模型能够随着训练数据集的增大、所执行任务多样性的增加,或两者同时增加而有效提升。以往的研究大多集中在其中一个方面——数据多样性或任务多样性。而新方法同时解决了这两个问题。
论文表明,阻碍分割模型有效扩展的一个问题是对象查询的设计。对象查询是一种表示关于场景中物体假设的方式——这些假设可以针对图像进行检验。
对象查询主要有两种类型。第一种称为“可学习查询”,它们是学习到的向量,与图像特征交互,并编码关于位置和物体类别的信息。由于不包含特定于物体的先验知识,可学习查询在语义分割上往往表现良好。
第二种对象查询称为“条件查询”,类似于两阶段物体检测:由变换器编码器生成区域提议,然后将高置信度的提议作为查询输入变换器解码器以生成最终预测。条件查询与物体类别紧密相关,在语义定义良好的物体上的物体检测和实例分割方面表现出色。
该方法是将两种类型的查询结合起来,从而提升模型跨任务迁移的能力。MQ-Former模型同时使用可学习查询和条件查询来表示输入,并且解码器的每一层都包含一个交叉注意力机制,使得可学习查询的处理能够参考条件查询处理的信息,反之亦然。
混合查询有助于提升分割模型在任务层面的扩展性,但分割模型扩展性的另一个方面是数据集大小。扩展分割模型的主要挑战之一是高质量标注数据的稀缺。为了克服这一限制,提出利用合成数据。
虽然分割数据稀缺,但物体识别数据却很丰富。物体识别数据集通常包含边界框,即标识出带有标签的物体所在图像区域的矩形。
要求训练好的分割模型仅分割边界框内的物体,会显著提升性能;因此,能够使用较弱的分割模型将物体识别数据集转换为可用于训练更强分割模型的分割数据集。
边界框还可以将自动字幕模型聚焦于图像中的感兴趣区域,以提供训练语义分割和实例分割模型所需的物体分类信息。
在涵盖一系列分割任务的15个数据集上评估了该方法,发现使用MQ-Former后,同时增加训练数据量和任务多样性能够持续增强模型的分割能力。
例如,在SeginW基准测试(包含25个用于开放词汇、野外场景分割评估的数据集)上,将数据和任务从10万个样本扩展到60万个,使物体掩码的平均精度提升了16%。引入合成数据后,性能又提升了14%,建立了新的领先水平。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。