
多目标跟踪(MOT)的主流做法是"检测+关联":先检测出每一帧的目标,再用匈牙利算法、IoU 匹配等手工设计的启发式方法把前后帧的目标对应起来。这些方法能用,但每遇到一个新场景(遮挡严重、目标外观相似、运动轨迹不规律),就需要一轮新的调参和规则修改。
南京大学王利民团队提出了一个新视角:把目标关联问题转化为 ID 预测问题。给定一组历史轨迹(每条轨迹带有一个 ID 标签),直接预测当前帧检测到的目标应该分配哪个 ID。这个过程形式上类似分类,但本质不同:传统分类的标签有固定语义(猫=1、狗=2),而 MOT 中的 ID 标签是随机分配的,只表示"一致性"而不携带语义信息——同一条轨迹的 ID 保持一致即可,具体是哪个数字无所谓。这种"上下文相关"的标签设计使模型可以泛化到推理时未见过的新轨迹。
基于这个思路,MOTIP 用一个 DETR 检测器 + 可学习 ID 字典 + ID Decoder 的简洁架构,在 DanceTrack 上 HOTA 达到 69.6(不使用额外数据),超越此前最优 CO-MOT(65.3)+4.3 个百分点。在 SportsMOT 和 BFT(鸟类追踪)上同样达到 SOTA。
主流 MOT 方法的关联步骤依赖手工设计的启发式规则:
方法类型 | 做法 | 局限 |
|---|---|---|
IoU 匹配 | 用前后帧检测框的 IoU 计算相似度,匈牙利算法做最优匹配 | 目标快速移动或遮挡时 IoU 接近零,匹配失败 |
运动模型 | 用卡尔曼滤波预测目标下一帧位置,再做匹配 | 假设线性运动,非线性轨迹(如舞蹈、球类运动)效果差 |
外观特征 | 提取 ReID 特征计算余弦相似度 | 目标外观相似时(如穿同色队服的运动员)容易混淆 |
这些方法的共同问题是:每一种假设(线性运动、外观可区分、IoU 重叠充分)都有适用边界,一旦超出边界就需要针对性修补。比如 OC-SORT 为了处理突然停止和启动的运动专门设计了"虚拟轨迹",Hybrid-SORT 组合了多种相似度度量。每次改进都需要大量人工分析和参数调优。
论文提出的核心问题是:能否在保持"检测+关联"解耦的同时,把关联部分从启发式规则变成端到端可学习的?
MOTIP 的回答是:把关联转化为 ID 预测——给定上下文(历史轨迹 + 它们的 ID 标签),直接预测当前检测目标的 ID。

使用 Deformable DETR(ResNet-50 骨干)对每一帧做目标检测,输出每个目标的 C 维特征向量和检测框。
MOTIP 的一个关键设计是检测和关联解耦:检测器只负责检测,关联由后续的 ID Decoder 独立完成。这避免了 MOTR 等方法中检测 query 和跟踪 query 在同一个解码过程中产生冲突的问题。
定义一个 ID 字典 I = {i₁, i₂, ..., iK, i_spec},其中:
关键理解:ID 标签不携带语义信息,它们只表示"一致性"。轨迹 1 和轨迹 2 的 ID 可以互换,只要同一条轨迹内的 ID 保持一致。这使得模型可以泛化到推理时未见过的新轨迹——不需要为每条新轨迹学习新的表示,只需复用已有的 ID token。
标准 Transformer Decoder,包含交替堆叠的 self-attention 和 cross-attention 层。注意力结构如下:
其中 self-attention 层让当前帧的多个检测目标之间互相交换信息,避免多个相似目标被分配到同一个 ID。消融实验(Table 4)显示,在最终配置中去掉 self-attention 后 HOTA 从 62.2 降至 60.2;论文还指出,引入轨迹增强后,有无 self-attention 的性能差距进一步拉大,验证了这一设计的重要性。
ID Decoder 输出每个检测目标在 K+1 个 ID 上的概率分布,经线性分类头得到最终预测。推理时的 ID 分配并非简单取最高概率,而是包含一套完整的决策流程:
整个过程等价于:在历史轨迹提供的"上下文"中,为当前检测目标做 ID 预测——这就是"in-context ID prediction"的含义。

MOTIP 的一个巧妙设计是轨迹增强(Trajectory Augmentation),解决训练和推理之间的分布差异。
训练时使用 Ground Truth 构建历史轨迹,轨迹是"干净"的。但推理时,模型的 ID 分配可能出错(比如把目标 A 的 ID 分给了目标 B),导致历史轨迹中夹杂错误。如果训练时从未遇到过这种"脏数据",模型的鲁棒性就不够。
论文设计了两种增强策略:
策略 | 做法 | 模拟的场景 |
|---|---|---|
轨迹随机遮挡 | 以概率 λ_occ 随机丢弃轨迹中的 token | 目标被遮挡导致轨迹不完整 |
轨迹随机交换 | 以概率 λ_sw 随机交换同一帧中两条轨迹的 ID token | 模型给外观相似的目标分配了错误 ID |
两种增强的超参数都设为 0.5,在消融实验中证明对性能有显著贡献。
DanceTrack 是当前最具挑战性的 MOT 基准之一,包含群舞场景中频繁交互、外观相似、非线性运动的目标。
方法 | HOTA | AssA | IDF1 | 额外数据 |
|---|---|---|---|---|
ByteTrack | 47.7 | 32.1 | 53.9 | 无 |
OC-SORT | 55.1 | 38.3 | 54.6 | 无 |
MeMOTR | 63.4 | 52.3 | 65.5 | 无 |
CO-MOT | 65.3 | 53.5 | 66.5 | 无 |
MOTIP | 69.6 | 60.4 | 74.7 | 无 |
MOTRv2 | 69.9 | 59.0 | 71.7 | 有 |
MOTIP | 72.0 | 63.5 | 76.8 | 有 |
不使用额外数据时,MOTIP 在 HOTA(+4.3)、AssA(+6.9)、IDF1(+8.2)上全面领先。AssA(关联准确率)的提升最大,直接验证了 ID 预测在目标关联上的优势。
使用额外数据后,MOTIP 达到 72.0 HOTA,超越 MOTRv2(69.9)和 CO-MOT(69.4)。
体育赛事场景包含频繁的镜头切换、运动员的高速移动和反复交互。OC-SORT 通过显式建模非线性运动在该数据集上表现突出。
方法 | HOTA | AssA | IDF1 |
|---|---|---|---|
ByteTrack | 62.1 | 50.5 | 69.1 |
TrackFormer | 63.3 | 61.1 | 72.4 |
OC-SORT | 68.1 | 54.8 | 68.0 |
MeMOTR | 68.8 | 57.8 | 69.9 |
MOTIP | 72.6 | 63.2 | 77.1 |
MOTIP 在不使用额外数据的情况下 HOTA 达到 72.6,比 MeMOTR(68.8)高 3.8,且在 AssA(+5.4)和 IDF1(+7.2)上优势更为明显。值得注意的是,MOTIP 不使用额外数据的成绩甚至超过了多数使用额外数据的方法(如 OC-SORT 71.9、DiffMOT 72.1)。
鸟类追踪与行人追踪有显著不同:鸟类在三维空间中运动更动态,且外观高度相似(没有衣服等人工特征可用于区分),对关联算法提出了不同维度的挑战。
方法 | HOTA | AssA | IDF1 |
|---|---|---|---|
JDE | 30.7 | 23.4 | 37.4 |
FairMOT | 40.2 | 28.2 | 41.8 |
ByteTrack | 62.5 | 64.1 | 82.3 |
CenterTrack | 65.0 | 54.0 | 61.0 |
OC-SORT | 66.8 | 68.7 | 79.3 |
MOTIP | 70.5 | 71.8 | 82.1 |
MOTIP 在这个全新的跟踪场景中同样达到 SOTA,验证了方法的跨场景泛化能力。
论文在完全相同的目标特征上做了直接对比实验,分别用 ReID 方法(FairMOT 的分类损失、对比学习损失)和 MOTIP 的 ID 预测做关联:
关联方式 | HOTA | AssA | IDF1 |
|---|---|---|---|
两阶段 ReID(FairMOT 式) | 29.4 | 11.5 | 22.1 |
两阶段对比学习 | 41.0 | 22.6 | 36.4 |
两阶段 ID 预测(MOTIP) | 55.4 | 41.1 | 55.7 |
一阶段 ReID + 匈牙利 | 50.6 | 34.7 | 50.9 |
一阶段 ID 预测(MOTIP) | 59.5 | 47.2 | 61.1 |
在相同特征下,ID 预测方式的 HOTA 比 ReID 高 8.9-26 个百分点(两阶段设置下差距更大)。这说明性能差距主要来自关联范式的不同,而非特征提取的差异。
论文贡献总结:
MOTIP 最值得关注的不是具体的数字提升,而是它对 MOT 关联问题的重新定义。传统方法把关联看作"匹配问题"(在两组对象之间找最优对应),MOTIP 把它看作"预测问题"(给定上下文,预测 ID 标签)。这种视角转换带来了两个结构性优势:
训练效率也值得一提:8 张 4090,DanceTrack 训练不到一天。对于学术实验室来说门槛不高。
局限方面:
总体来说,MOTIP 用一个简洁且符合直觉的思路重新定义了 MOT 的关联问题,在多个高难度基准上取得了一致的 SOTA 结果。作者自己也指出,"MOTIP 的简洁性和显著结果为后续研究留下了大量发展空间"——这正是好 baseline 的特征。
Coovally AI Hub 解读AI前沿——顶会论文解读、开源项目精选、企业落地案例,帮你技术进阶与商业破圈。如果您有技术交流或合作意向,欢迎联系我们和评论区留言讨论~
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。