
【导读】
自2020年DETR提出以来,基于Transformer的目标检测模型成为学界研究热点。虽然 DETR 展示了新范式的巨大潜力,但也暴露出诸如收敛慢、匹配机制不稳定等问题。随后的一系列改进方案(如Deformable DETR、DAB-DETR、DN-DETR、DINO等)正是在解决这些瓶颈。今天,我们带你一文了解Vision Transformer在目标检测上的演进逻辑,特别是“去噪机制(DN)”如何深刻改变了 Transformer 检测器的训练路径。
DETR(DEtection TRansformer)是 Carion 等人在 2020 年提出的首个端到端目标检测 Transformer 架构。它的核心设计是使用一组随机初始化的解码器查询(queries),直接从图像 token 中提取检测框和类别信息,而非传统的锚点机制。这些 queries 并没有被赋予空间含义,因此训练需要长达 500 个 epoch 才能收敛,效率极低。

为了解决这一问题,后续研究引入了空间约束和结构先验——如:
这些方法在一定程度上提升了训练效率,但核心问题仍在于——Transformer 的查询机制训练不稳定,容易“飘忽不定”。
DETR 架构使用的是匈牙利算法来将模型预测与真实标签(GT)进行一一匹配。这种全局最优匹配机制虽然严谨,但存在两个问题:
为解决上述问题,Li 等人提出了DN-DETR(Denoising DETR),其核心思路是:
绕过匈牙利匹配,直接给Transformer查询一个“热启动”目标。
具体做法是:
这样做的好处是:


DINO 模型进一步升级了去噪机制,通过加入对比学习(Contrastive Denoising)的思想增强学习信号:
这个过程中,“去噪”不仅仅是加速训练的辅助工具,更成为指导模型理解检测目标的“核心机制”。

训练过程快照。绿色框是当前锚点(从先前图像中学习或固定)。蓝色框是鸟类目标的地面实况 (GT) 框。黄色框是通过向 GT 框添加噪声(同时改变位置和尺寸)生成的正例。红色框是负例,保证其与 GT 的距离(在 x、y、w、h 空间中)比正例更远。
去噪机制的最大潜力,其实是在视频追踪模型中被真正释放出来。
例如在 Sparse4Dv3 等时序 Transformer 中,模型需要逐帧检测并跟踪物体,不只是输出框,还要保持物体 ID 的连续性。为了实现这一点:
这样,模型在跨帧保持一致性的能力大大增强。
不过,去噪机制的适用边界也逐渐被研究者提出挑战。例如:
Wang 等人在 Anchor-DETR 中对可学习锚点与不可学习锚点进行了比较,发现性能差距有限,但他们仍使用了匈牙利匹配,因此不能直接回答这些问题。
更进一步,如果在推理阶段我们不使用非极大值抑制(NMS),则训练时仍需要匈牙利匹配来保证预测与 GT 一一对应。这种生产需求也影响了设计的选择。
从 DETR 到 DINO,视觉 Transformer 的检测思路已发生显著变化:
“从随机学习,到目标指导;从全局匹配,到局部回归。”
而“去噪机制”的提出,则像是一把钥匙,打开了训练稳定性的大门,也重塑了我们对查询机制的理解。
未来,随着视频理解、跨模态识别等任务的发展,去噪机制很可能不只是加速训练的工具,而是时序建模中的关键桥梁。我们期待看到更多关于锚点、匹配与去噪机制交互作用的研究,继续推动视觉 Transformer 的发展边界。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。