YOLO11-JDE：快速精准的多目标跟踪与自监督重识别

CreateAMind

发布于 2026-03-11 17:09:31

1990

文章被收录于专栏：CreateAMindCreateAMind

YOLO11-JDE: Fast and Accurate Multi-Object Tracking with Self-Supervised Re-ID

YOLO11-JDE：快速精准的多目标跟踪与自监督重识别

https://www.arxiv.org/pdf/2501.13710

摘要

我们提出了 YOLO11-JDE ，一种快速且准确的多目标跟踪（MOT）解决方案，它将实时目标检测与自监督的重识别（Re-Identification, ReID）相结合。通过在 YOLO11s 中引入专门的 Re-ID 分支，我们的模型实现了联合检测与嵌入 （Joint Detection and Embedding, JDE），为每个检测结果生成外观特征。该 Re-ID 分支在完全自监督的设置下进行训练，同时与检测任务一起优化，从而无需昂贵的身份标注数据集。我们采用三元组损失函数（triplet loss），并结合难正样本和半难负样本挖掘策略，以学习具有判别性的嵌入向量。数据关联方面，我们通过一个定制的跟踪实现进行了增强，成功融合了运动、外观和位置信息。YOLO11-JDE 在 MOT17 和 MOT20 基准测试中取得了具有竞争力的结果，在帧率（FPS）方面超越了现有的 JDE 方法，并且参数数量最多可减少至其十分之一。这使得我们的方法成为实际应用中极具吸引力的选择。代码已公开发布于：https://github.com/inakierregueab/YOLO11-JDE 。

1. 引言

多目标跟踪（Multi-Object Tracking, MOT）是计算机视觉中的一个基础任务，其目标是在视频序列中检测多个目标，并在各帧之间维持它们的身份区分。从自动驾驶 [8, 24, 38]、视频监控 [2, 51] 到体育分析 [12, 29, 53] 和机器人 [42, 58] 等领域，MOT 都是众多现实应用中的关键组成部分。尽管该领域取得了显著进展，但诸如频繁遮挡、复杂的不可预测运动模式以及实际场景中对实时性能的需求等因素仍然构成了挑战 [3, 11]。

在 MOT 的不同范式中，“基于检测的跟踪”（Tracking-by-Detection, TbD）因其模块化和灵活性而成为最广泛使用的方法，它将任务分为两个阶段：在每一帧中检测目标，并在连续帧之间关联这些检测结果以维持身份。许多方法整合了重识别（ReID）嵌入来简化匹配过程。这些外观线索在涉及遮挡或具有相似运动模式的目标等复杂场景中尤为有价值，因为它们提供了除空间和时间信息之外的额外判别依据。

虽然在目标检测和 ReID 领域都取得了显著进展，但大多数方法仍采用两阶段的方式，即“分离检测与嵌入”（Separate Detection and Embedding, SDE），其中检测和 ReID 是独立进行的 [1, 28, 50, 56]。尽管这种方法有效，但由于缺乏特征共享以及对每个边界框应用 ReID 模型所带来的计算开销，它们在扩展性上存在局限。为了克服这些限制，最近的研究提出了一种“联合检测与嵌入”（JDE）模型，将目标检测与 ReID 特征提取统一到一个模型中 [18, 32–34, 45, 57, 63, 67, 69]。通过在两个任务之间共享特征并进行联合优化，JDE 模型显著降低了计算开销，使其成为 MOT 的一种有吸引力的范式。

JDE 模型中检测任务与嵌入任务的联合训练带来了独特的挑战。虽然目标检测的目标是通过特征聚类来区分不同类别对象，重识别（Re-ID）则要求在同类对象内部具备一定的特征差异性，以便对同一类别中的不同个体进行有效区分。这种内在冲突使得优化过程变得复杂，也使损失函数的选择在 JDE 模型中尤为关键。此外，要实现当前最先进的性能，通常需要大规模、带身份标签的跟踪数据集来进行监督训练，而这类数据集获取成本高昂且耗时。

在本研究中，我们提出了一种端到端的框架，该框架基于流行的 Ultralytics [27] 框架和最先进的检测器 YOLO11 [26]，并进行了修改以实现联合检测与嵌入。为应对联合训练中的固有难题，我们探索了深度度量学习领域的方法，旨在通过广泛使用的三元组损失（triplet loss）[9, 48] 在检测与嵌入目标之间取得最佳平衡。此外，为了减少对大量身份标签监督的需求，我们采用了强大的数据增强技术，特别是马赛克数据增强（Mosaic data augmentation）[6]，使我们的模型能够在完全自监督的环境下有效训练。与现有的 JDE 方法相比，我们的方法大幅减少了参数数量，从而显著提升了每秒帧数（FPS）。在 MOT Challenge 基准测试中，YOLO11-JDE 展示了具有竞争力的跟踪精度，同时保持了高效率（见图1），使其非常适合用于对推理速度和模型大小敏感的实时多目标跟踪应用。

总结来说，我们的主要贡献包括：

YOLO11-JDE ：一种改进版的 YOLO11s，能够执行 JDE 任务，具有体积小、速度快且准确率高的特点。
一种基于马赛克数据增强和三元组损失函数的自监督/半监督 JDE 模型训练方法。
一种定制的数据关联算法 ，融合了运动、位置和外观信息。

2. 相关工作

2.1 基于检测的跟踪（Tracking-by-Detection）

多目标跟踪（MOT）任务可以根据检测与跟踪任务如何结合，大致分为三种主要范式：基于回归的跟踪、基于检测的跟踪和基于注意力的跟踪。然而，在研究和实际应用中，基于检测的跟踪（TbD） 被认为是最实用且最广泛使用的方法。

这类跟踪器将 MOT 分为两个独立的任务：检测与关联。跟踪过程首先使用高性能检测器（如 YOLOX [20]、Faster R-CNN [44] 或 CenterNet [71]）在每一帧中识别出潜在感兴趣的目标对象。然后，使用跟踪算法对连续帧中的检测结果进行关联，这些算法通常会利用多种线索（如运动、位置、外观等）来进行数据关联。

由于候选框可以直接由现成的检测器提供，TbD 方法主要关注于提升关联性能。早期方法如 SORT [5] 使用卡尔曼滤波器 [30] 来预测后续帧中目标的位置，并假设目标具有线性运动动态。数据关联通过匈牙利算法 [31] 实现，其代价矩阵基于预测框与检测框之间的交并比（IoU）。更近期的改进方法如 ByteTrack [68] 则采用两阶段级联匹配策略，利用所有输出的检测结果（包括低置信度的检测）。ConfTrack [28] 和 BoostTrack [50] 则分别引入了针对低置信度和高置信度检测的新惩罚与增强方法来优化匹配过程。另一个方向是 C-BIoU 跟踪器 [61]，它通过添加缓冲区域扩展检测与轨迹之间的匹配空间，从而缓解不规则运动带来的影响。

2.2 重识别（Re-Identification）

为了更好地应对遮挡、拥挤场景以及非线性运动，现代系统通常除了使用 IoU 和运动线索外，还会加入外观相似性 作为辅助信息。因此，诸如 DeepSORT [59]、BoT-SORT [1]、SMILETrack [56] 以及其他许多方法 [28, 50, 64] 都集成了对检测目标提取具有判别性的 Re-ID 特征的能力。

这些嵌入特征可以通过外部高质量特征提取器（例如 FastReID [22]）获取，也可以通过 JDE 模型实现（见图 2a 和 2b）。尽管 SDE 方法在性能上表现优异，但由于需要对每个边界框的图像或特征图裁剪进行前向推理，特征提取网络带来了巨大的计算开销，限制了其在实时应用中的部署。

2.3 联合检测与嵌入（Joint Detection and Embedding）

JDE 模型旨在通过一个单一网络同时执行目标检测与 Re-ID 特征提取，以减少推理时间。Wang 等人 [57] 在专注于单阶段检测器的研究中，重新设计了 YOLOv3 [43] 的耦合预测头，直接在共享特征上应用 1×1 卷积层，提取 512 维的嵌入特征，忽略了所涉及三项任务之间的固有差异。此外，[57] 使用分类方式训练 Re-ID 任务：将提取的嵌入输入共享的全连接层，输出类别 logits，并使用交叉熵损失函数。这种方法忽略了没有身份标签的标注数据。

CSTrack [34] 采用 YOLOv5 [25] 作为检测器，并引入了两个新模块，用于解耦 Re-ID 任务并在不同尺度间融合嵌入特征。随后的发展如 OMC [33] 和 TCBTrack [67] 更加注重对外观线索的时间细化。

另一方面，FairMOT [69] 使用修改后的无锚点检测器 CenterNet，输出每个检测结果对应的 128 维特征。与前述方法类似，FairMOT 也是通过分类任务学习 Re-ID 特征。除标准训练策略外，FairMOT 还提出了一种适用于图像级目标检测数据集的单图训练方法：每个边界框被分配唯一的身份标识，实质上将数据集中每一个目标实例视为一个独立类别。通过对整张图像应用各种变换，模型可以在多种条件下学习到每个身份的特征。尽管报告结果尚可接受，但这种自监督方法仅被用作预训练步骤，未进一步深入探索。

QDTrack [18] 进一步研究了自监督范式，结合 MixUp [65] 和 Mosaic 数据增强技术，并扩展了 InfoNCE 损失 [52]，配合适当的正则化项。与此同时，其他基于 CenterNet 的模型如 RelationTrack [63] 和 SimpleTrack [32] 则聚焦于任务解耦与数据关联性能的提升。

最新的 JDE 方法 CountingMOT [45] 和 UTM [62] 在 MOTChallenge 基准测试中达到了当前最先进的性能。前者基于 FairMOT，在检测与密度估计分支之间增加了一个计数任务，提升了在拥挤场景下的表现；后者则将数据关联步骤集成进统一的跟踪模型中，形成一种正反馈机制，共同提升检测与 Re-ID 性能。

尽管 RetinaTrack [38] 是专为自动驾驶场景设计的，但它同样值得关注。该方法基于 RetinaNet [35]，使用三元组损失函数并挖掘难样本三元组来实现 JDE 任务。

3. YOLO11-JDE

在本节中，我们将详细介绍 YOLO11-JDE 的技术细节，包括其改进后的网络结构、用于以自监督方式有效训练 Re-ID 分支所采用的不同策略，以及将 Re-ID 嵌入特征集成到在线数据关联过程中的方法。

3.1 网络结构

借鉴现有的 JDE 方法（如 [18, 34, 57, 62, 67]），我们的框架基于 YOLO 系列检测器构建。YOLO 检测器通常由三部分组成：用于生成特征图的主干网络 （backbone）、通过融合浅层与深层表示来优化特征的颈部网络 （neck），以及三个预测头（prediction heads）（见图2c）。特别是，我们选用了当前最先进的 YOLO11s 版本，因为它在效率、准确性和实时性能方面表现出色。

我们在原始的多任务解耦头中引入了一个 Re-ID 分支 ，其设计灵感来自于边界框和分割回归分支的结构。该 Re-ID 分支通过两个连续的 3×3 卷积层处理输入特征图，每个卷积层后都接有批归一化（batch normalization）和 SiLU 激活函数。随后是一个 1×1 卷积层，将特征映射到对应的嵌入维度，且不使用批归一化，这一做法遵循了 [22] 中提出的最佳实践。

这种设计虽然简单但非常有效，使 Re-ID 分支能够在不引入不必要的复杂性的情况下学习具有判别性的特征，并以与其他目标检测任务（分类和边界框回归）一致的方式完成该任务。因此，YOLO11-JDE 在输出每个检测结果的类别和边界框的同时，还会输出其对应的外观嵌入特征（见图2d）。

3.2 自监督训练策略

Re-ID 分支的目标是生成鲁棒的嵌入特征 ，以促进连续帧之间的数据关联，同时尽量减少对大规模带身份标签的跟踪数据集的依赖。为实现这一目标，我们采用了一种完全自监督的训练方式 ，其灵感来源于 FairMOT 和 QDTrack 的工作。

我们自监督策略的核心部分是使用了 Mosaic 数据增强 [6]，这是一种在现代目标检测器（如 YOLO11）训练中广泛采用的技术。Mosaic 增强通过将四个不同的图像块组合成一张输入图像，有效地使模型能够在多种变换条件下（包括颜色、尺度、旋转等变化）“看到”相同的个体身份。正如图3所示，这种方法使得 JDE 模型能够在常规进行目标检测训练的同时，在同一张输入图像和/或同一批次中接触到同一个身份的多个增强版本，从而学习到鲁棒的特征。这几乎可以“免费地”让模型为每个检测结果输出外观特征。

虽然我们的方法旨在实现完全的自监督训练 ，但它也兼容半监督训练 方式，即少量带有身份标签的跟踪数据可以在训练过程中起到补充作用。这种灵活性确保了该框架能够适应不同数据可用性水平的场景，这在实际应用中至关重要。

3.3. Re-ID Loss重新识别损失

对于一个给定的训练批次，模型会输出 N 个前景预测结果 ，每个预测都附带一个具有对应真实身份标签的嵌入向量。损失函数的目标是：在特征空间中，将相同身份的嵌入（正样本）拉近 ，而将不同身份的嵌入（负样本）推远。这种学习范式是深度度量学习 的核心思想，其目标是学习一个特征空间，在该空间中，样本之间的距离能够直接表达数据点之间的有意义关系。

Re-ID 任务可以通过两种方式来建模：一种是作为分类问题，另一种是直接优化嵌入之间的成对相对距离 [7]。受对比式训练的常见 Re-ID 模型启发 [10, 19, 21, 22, 37]，我们采用了一种成对学习方法 ，因为这种方法在面对大量身份时仍具有良好的可扩展性。

尽管一些先进的成对损失函数，如 Multi-Similarity [55]、InfoNCE [52] 或 Angular [54] 在某些任务中表现更优，但我们选择了三元组损失函数（triplet loss） ，因为它结构简单、计算高效，并且已被证明具有良好的效果 [23]。

三元组损失通过在正样本和负样本之间引入一个边界值 m 来实现目标，确保来自某一身份的锚点样本（anchor）与其对应的正样本之间的距离小于其与负样本之间的距离。该损失函数定义如下：

其中，{a, p, n} 表示所有待评估的三元组集合；dap 和 dan 分别表示锚点（anchor）与正样本（positive）以及负样本（negative）之间的距离。

给定 N 个嵌入向量，三元组的总数将以 O(N³) 的复杂度增长。这种快速增长使得直接使用所有可能的组合在计算上不可行。此外，许多生成的三元组对模型来说几乎没有提供新的信息，这会减缓模型的收敛速度。

为了解决这些问题，近年来基于成对的度量学习方法开始采用更具信息量的采样策略。在我们的设置中，我们采用了难正样本与半难负样本采样策略 ，从中总共选取 N 个三元组，尽管我们也探索了其他策略（见第 4.3.1 节）。

一方面，难正样本挖掘 （hard positive mining）为每个锚点选择与其具有相同身份但距离最远的嵌入作为正样本（即最不相似的同类样本）；

另一方面，半难负样本挖掘 （semi-hard negative mining）则为每个锚点选择一个最难的负样本（即与锚点最相似但属于不同身份的嵌入），并且该负样本到锚点的距离必须大于所选正样本的距离。

这样，我们选择的负样本既不是太容易区分（距离太远），也不是过于困难（距离太近）。通过使用这些采样策略，我们确保每一个三元组都具有信息量且具备一定挑战性，从而加速模型收敛、提升整体性能，并缓解了计算不可行的问题。

3.4 数据关联

我们最初采用了 FairMOT 中使用的两阶段在线数据关联策略 。轨迹片段（tracklets）从第一帧中的检测结果初始化，并在后续帧中通过结合运动和外观线索进行更新。

在第一阶段 ，使用卡尔曼滤波器预测轨迹片段的位置，并计算预测框与检测框之间的马氏距离（Mahalanobis distance）。利用归一化的 Re-ID 嵌入特征计算余弦距离矩阵，并将其与马氏距离融合，得到最终的代价矩阵。匹配结果通过匈牙利算法确定。

在第二阶段 ，未匹配的轨迹片段和检测结果基于边界框的交并比（IoU）进行关联，但采用更严格的匹配阈值。未匹配的检测结果可以用于初始化新的轨迹，而未匹配的轨迹片段会在视频中保留30帧以应对遮挡情况。根据 [16] 的做法，外观特征通过指数移动平均方式进行更新。

在 FairMOT 跟踪器的基础上，并受到 ByteTrack 的启发，我们为 YOLO11-JDE 模型实现了一个简单但有效的自定义跟踪器 。

在第一阶段 ，高置信度的预测结果通过结合运动、外观和位置信息进行匹配。运动信息与外观信息的融合方式沿用了 FairMOT 的方法，同时剔除 IoU 重叠较低的匹配对。随后将 IoU 距离矩阵与检测置信度得分结合，并过滤掉相似度较低的匹配对。最终的代价矩阵是这两个因素的线性组合。

对于低置信度的预测结果以及未匹配的检测，则仅使用 IoU 进行关联。该方法在计算复杂度与跟踪鲁棒性之间取得了良好的平衡。

4. 实验

4.1 数据集与评估指标

在行人跟踪任务中训练 JDE 模型时，通常会使用以下七个数据集。其中包含目标检测数据集：CrowdHuman [49]、ETH [17] 和 CityPersons [66]；以及同时提供身份标注的数据集：MOT17 [13]、CalTech [15]、CUHK-SYSU [60] 和 PRW [70]。

在本研究中，我们仅使用上述提到的目标检测数据集，但会加入 MOT17 数据集用于最终评估前的微调。按照以往的研究方法 [50, 57]，我们使用每段训练序列的后半部分构建 MOT17 验证集，并裁剪掉 ETH 中与 MOT16 [40] 基准重叠的视频片段。

我们在两个广泛认可的基准测试集 MOT17 和 MOT20 [14] 上评估我们的方法。为了全面衡量跟踪性能，我们主要依赖 HOTA[39] 指标，因为它能够对检测、关联和轨迹质量进行均衡评估。此外，我们也参考 CLEAR 指标中的 IDF1 [46] 和 MOTA [4]，以进一步了解模型在身份保持和整体跟踪表现方面的性能。

检测性能通过平均精度（AP）来评估，使用的 IoU 阈值范围为常见的 50:95。Re-ID 嵌入特征的质量及训练收敛情况则通过聚类指标如 Silhouette 分数 [47]、检索任务中的平均平均精度（mAP），以及更简单的指标如正样本与负样本之间的平均欧氏距离和余弦距离来进行监控。

4.2 实现细节

我们的框架基于 Ultralytics 架构构建，并进行了修改以支持 JDE 任务，包括引入身份标签管理机制、新的 JDE 头部结构、用于监控联合优化过程的指标，以及一套新的跟踪算法。此外，JDE 的损失函数和采样策略是通过 PyTorch Metric Learning 库 [41] 实现的。

身份标注信息从现有数据集中提取，若数据缺失则通过合成方式生成，并在数据增强和前景预测对齐过程中予以保留。所有实验均使用预训练于 COCO [36] 数据集的 YOLO11s 模型作为初始权重。优化和数据增强的超参数采用默认配置，仅 Mosaic 数据增强在整个训练过程中始终启用。

4.3 消融实验

在本节中，我们对 YOLO11-JDE 中四个关键因素进行了严格的消融研究，这些因素包括：Re-ID 损失函数、外观特征的维度、所需训练数据量以及监督程度。

为了在保证计算可行性的前提下隔离并分析这些因素的影响，我们采用了简化的实验设置。具体来说，我们使用小规模的 YOLO11 模型作为基线模型，在 32 的批量大小下训练 30 轮次。Re-ID 分支采用三元组损失，其权重设为 1，并输出 128 维的嵌入向量。

训练数据限制为 CrowdHuman [49] 数据集以及 MOT17 训练集的一半检测结果，所有图像统一调整为 640 像素。验证方面，检测性能在两个数据集的验证划分上进行评估，而 Re-ID 性能则仅使用 MOT17 中的真实身份标签进行评估。

评估消融实验时，我们使用 FairMOT 中的跟踪器算法及其默认配置，并采用 1088×608 像素的推理分辨率。为确保评估全面并考虑各因素之间的潜在交互影响，我们采取了顺序实验的方法：即每一项消融实验中表现最佳的配置将作为下一阶段实验的基线。

所有评估指标以百分比形式给出，每次消融实验中的最优结果以加粗形式表示。

4.3.1 Re-ID 损失函数

采样策略

消融实验首先从选择三元组损失函数 （triplet loss）的最佳采样策略开始，该损失函数在默认设置下使用边界值 m = 0.05。

我们尝试了多种采样策略，包括针对正样本和负样本的难样本、半难样本和易样本。结果总结于表1中，可以看出，在跟踪精度和 Re-ID 嵌入质量两个方面，难正样本 + 半难负样本 的组合表现最佳。

这可能是因为这种组合为模型提供了适度的挑战性。半难负样本 虽然不难分离，但在不过度引入训练不稳定性的前提下，有助于优化决策边界；而难正样本 则迫使模型学习更具判别性的特征，从而增强类内一致性。

相比之下，较简单的采样策略（特别是针对负样本）很少违反边界条件，导致模型更倾向于专注于检测任务（即更高的 MOTA）。

损失边界值（Margin）

接下来的一组实验关注三元组损失函数中边界值 m 的影响 。如表2所示，我们在基线值附近测试了多个 m 值，其中 m = 0.075在 HOTA、MOTA 和 IDF1 指标上表现最佳。

我们进一步对这一边界值进行了两项额外实验：

交换距离计算方式 （即如果锚点-负样本的距离更违反边界，则改用正样本-负样本的距离）导致性能下降，这可能是因为它削弱了采样策略的效果；
将 Hinge 函数替换为 Softplus 函数以平滑损失函数 ，显著提升了检测性能，尽管在 HOTA 上略逊一筹。

置信度过滤

在边界值分析之后，我们研究了用于三元组挖掘的嵌入向量的置信度过滤策略 ，重点关注基于置信度的选择方法。

默认方法是在所有可用嵌入中进行采样，以确保最大覆盖范围，但这可能包含噪声或低置信度的样本。因此，我们尝试仅保留每一批次中置信度最高的前75%和前50%的预测结果。

结果汇总于表3中，可以看出，当使用全部预测结果 时模型表现更好。这可能是由于低置信度样本带来的额外多样性，使 Re-ID 分支接触到更多具有挑战性的案例，最终促进了更鲁棒的特征学习。

损失权重

最后一组消融实验评估了Re-ID 损失权重 的影响，我们尝试了三种不同的权重值。目标是理解在整体多任务目标函数中，三元组损失所占比重的变化如何影响跟踪性能。

表4显示，单位权重 （unitary weight）优于其他配置。通过多次实验观察到一个普遍趋势：损失函数的幅值越小，检测性能越好。这表明，在联合训练过程中，Re-ID 损失提供一个强度适中但有效的信号 ，对于保证不影响检测任务至关重要。

4.3.2 特征维度

在本小节中，我们研究了嵌入特征维度变化 对联合优化过程及最终跟踪性能的影响。通过尝试 64、128 和 256 三种不同的维度，我们旨在找到一个在身份嵌入鲁棒性与计算可行性之间达到最佳平衡的尺寸。

如表5所示，128 维 取得了最均衡的表现。64 维 虽然获得了最高的 MOTA 分数，可能是由于较低的信号损失在联合训练过程中有利于检测任务；而将维度提升至 256 后，各项指标均略有下降，这可能是因为高维空间中出现了过拟合或冗余信息。

4.3.3 训练数据集

为了评估不同类型监督信息和训练数据对 JDE 模型训练效果的影响，我们进行了另一组实验。

如表6所示，仅使用 CrowdHuman 数据集训练的模型就达到了较高的 MOTA 分数，但其较低的 HOTA 分数表明仍有必要使用 MOT17 数据进行微调。

有趣的是，引入身份标注监督信息并未带来 HOTA 或 IDF1 的提升，这表明模型已能通过完全自监督的方式 有效学习更具判别性的特征。

虽然加入 ETH 和 CityPersons 等额外数据集提升了检测性能，但它们并未改善跟踪相关指标，这说明微调数据的质量与相关性比数据多样性更为关键 。

4.4 数据关联

在确定了最具潜力的配置后，我们使用 64 的批量大小 和 1280 像素的输入图像分辨率 ，对模型进行了 100 轮次 的训练。随后，我们将重点放在数据关联步骤中涉及的超参数微调 上。

本节将默认设置下的 FairMOT 跟踪器与其原始参数进行对比，并与针对 YOLO11-JDE 模型进行微调后的版本进行比较，实验基于 MOT17 的训练划分进行。未加调整的默认跟踪器可能在置信度分布和特征表示方面存在不匹配问题，从而导致数据关联效果不佳，影响整体跟踪精度。

如表7所示，对跟踪器进行微调以适配 YOLO11-JDE 的特定输出显著提升了其整体性能。此外，我们自定义的 YOLO11-JDE 跟踪器 在所有评估指标上均优于两种 FairMOT 跟踪器，通过融合运动、外观和位置信息，实现了更精确的数据关联。

4.5 MOTChallenge 上的结果

我们将所提方法与现有文献进行比较，重点关注那些面向实时性能 的在线 JDE 方法。

在推理阶段，我们使用分辨率为 1280 像素 的新 YOLO11-JDE 跟踪器。在 MOT17 和 MOT20 测试集上的结果（采用私有检测协议）如表8所示。

尽管是唯一一个完全自监督的方法 ，YOLO11-JDE 在多个基准测试中仍表现出具有竞争力的性能，并且在帧率（FPS）方面明显优于其他方法。

在身份切换（IDs）指标上，YOLO11-JDE 也优于许多竞争方法，这表明其所生成的嵌入特征具有良好的判别能力。因此，我们认为其整体跟踪性能受限主要源于检测能力的不足，而非重识别能力的问题。

此外，YOLO11-JDE 的参数量少于 10M ，而像 CountingMOT 等性能领先的方法则依赖计算成本更高的检测器，如 YOLOX-X（100M 参数）或 CenterNet（22M 参数）。

有趣的是，与竞争对手相比，YOLO11-JDE 在 MOT20 上的表现优于 MOT17 。需要注意的是，YOLO11-JDE 模型及其跟踪器并未使用 MOT20 数据集进行训练 。

这种在拥挤场景中的性能提升（见图4），可以归因于训练过程中所使用的数据类型。CrowdHuman 数据集中每张图像平均包含近 23 人 ，通过 Mosaic 数据增强后，相当于每张图像中约有 90 人 。这种数据构成使 YOLO11-JDE 在处理高密度人群场景 和部分遮挡情况 时表现出极高的鲁棒性。

5. 总结与未来工作

在本研究中，我们提出了 YOLO11-JDE ，一个基于 YOLO11s 构建的轻量级且高效的多目标跟踪（MOT）框架，并配备了用于联合检测与嵌入的 Re-ID 分支。

我们的方法表明，Re-ID 可以通过一种完全自监督的方式 进行有效训练，从而避免了对身份标注数据集的依赖，同时保持了具有竞争力的跟踪性能。通过结合三元组损失 与难正样本和半难负样本挖掘策略 ，YOLO11-JDE 能够生成具有判别性的嵌入特征，在各种跟踪场景下都表现出良好的鲁棒性，尤其是在人群密集的环境中。

此外，我们开发了一种定制的跟踪算法 ，融合了运动、外观和位置信息，有效提升了数据关联性能，并与 YOLO11-JDE 的输出无缝对接。

在 MOT17 和 MOT20 基准测试中的评估结果表明，该方法在精度上可与当前最先进的模型相媲美，同时在帧率（FPS）方面表现更优，并且使用了显著更少的参数。这些特性使 YOLO11-JDE 成为面向实际应用的一种实用且可扩展的解决方案。

在未来的工作中，我们计划解决检测性能方面的局限性，通过优化网络结构来更好地解耦 Re-ID 与检测任务。

我们还计划进一步改进外观特征，例如引入多尺度嵌入融合 机制，以提升 Re-ID 的鲁棒性。

此外，我们将探索更强大的数据增强方法的影响，包括旋转、剪切与透视变换、Mixup 以及边界框内的随机区域擦除等技术。

原文链接：https://www.arxiv.org/pdf/2501.13710

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-07-15，如有侵权请联系 cloudcommunity@tencent.com 删除

性能