https://arxiv.org/pdf/2504.20670
具备视觉能力的嵌入式飞行设备在众多应用中变得至关重要。在航空图像检测领域,尽管许多现有方法已部分解决了小目标检测的问题,但在优化小目标检测以及平衡检测精度与效率方面仍面临挑战。这些问题是实时航空图像检测发展的关键障碍。在本文中,我们提出了一系列新的用于航空图像检测的实时检测器,命名为FBRT-YOLO,旨在解决检测精度与效率之间的不平衡问题。我们的方法包含两个轻量级模块:特征互补映射模块(FCM)和多核感知单元(MKP),旨在增强航空图像中小目标的物体感知能力。FCM侧重于缓解深层网络中小目标信息丢失导致的信息不平衡问题。它旨在将目标的空间位置信息更深入地集成到网络中,更好地与深层语义信息对齐,以提高小目标的定位精度。我们引入了MKP,它利用不同大小的卷积核来增强不同尺度目标之间的关系,并提高对不同尺度目标的感知能力。在Visdrone、UAVDT和AI-TOD等三个主要航空图像数据集上的广泛实验结果表明,FBRT-YOLO在性能和速度方面均优于各种实时检测器。代码将在https://github.com/galaxy-oss/FCM上提供。
深度神经网络的最新进展显著提高了低分辨率自然图像中的目标检测性能(2022;2023)。然而,这些方法在处理高分辨率航空图像时,在效率和准确性方面面临挑战,尤其是在资源受限的飞行设备上。关键挑战包括:i)检测航空图像中尺寸小或被背景遮挡的物体,以及ii)在计算资源有限的设备上平衡准确性与实时检测要求。
为了提高小目标检测性能,增加图像分辨率(2017;2020)是常见做法,但这会增加计算负担,阻碍实时性能。关键挑战在于深层网络的低分辨率语义信息与浅层网络的高分辨率空间信息之间的不匹配。特征金字塔(2017)通过整合深层和浅层特征来解决这一问题,增强了小目标定位和多尺度特征表达,同时提高了计算效率。然而,如图1(a)所示,主干网络在整合和保留浅层信息方面仍面临困难,导致特征不匹配问题。
为了解决航空图像目标检测中的挑战,我们旨在设计一种更有效的网络,以满足实时航空图像分析中准确性和效率的要求。在本文中,我们提出了一种新颖的网络,包含两个轻量级模块:特征互补映射模块(FCM)和多核感知单元(MKP)。首先,为了缓解主干网络内的信息不平衡并促进语义和空间位置信息的更好集成,我们引入了特征互补映射模块(FCM)。FCM将目标的空间位置信息隐式编码到高维向量中,引导主干网络不同阶段空间和通道信息的互补学习。这有助于将浅层空间位置信息与深层语义信息融合,增强空间和语义表示的一致性。这种方法有助于将浅层空间位置信息传递到网络的更深层,提高特征对齐并增强小目标的定位能力,如图1(b)所示。
其次,由于航空图像中小目标的表示通常仅包含几个像素,这些目标在卷积神经网络(CNN)特征提取过程中容易发生特征消失。为了充分利用有限的特征信息并增强网络对不同尺度目标的感知能力,我们研究了网络的感受野,并提出了多核感知单元(MKP)。MKP由不同大小的卷积核组成,并在这些大小之间融入空间点卷积,以关注不同尺度的细节并突出多尺度特征表示。我们将网络的最终下采样层替换为MKP。这种方法实现了对目标的多尺度感知,提高了网络在不同尺度上捕捉特征的能力,同时进一步简化了网络结构。
为了满足航空图像实时检测的要求,我们提出了FBRT-YOLO,与基线YOLOv8模型(2023)相比,它具有更少的训练参数和更低的计算负荷。在VisDrone(2018)、UAVDT(2018)和AI-TOD(2021)等广泛使用的航空图像基准数据集上进行的广泛实验表明,我们的FBRT-YOLO在各种模型尺度下,在计算与准确性的权衡方面显著优于之前的先进YOLO系列模型。结果如图2所示。我们的贡献可以总结如下:
实时目标检测器。实时目标检测器对于资源受限的平台至关重要,它们强调模型大小、内存和计算效率。目前,YOLO(2016年)和FCOS(2020年)是用于最先进实时目标检测的主流框架。尽管现有的实时检测器在COCO(2014年;2024年)等针对低分辨率自然图像的公共基准数据集上表现出了显著的性能提升,但它们在高分辨率航空图像上的性能仍不尽如人意。我们引入了FBRT-YOLO,这是一种专门设计的实时目标检测器,旨在在高分辨率航空环境中表现出色,与现有模型相比展现出卓越的性能。
小目标检测。检测小目标长期以来一直是一个挑战。最近的解决方案包括扩充小目标数据集(2019年)以及使用高分辨率图像来保留详细特征。然而,这些方法往往导致模型更复杂,检测速度更慢。ClusDet(2019年)采用了一种基于聚类的目标尺度估计网络,以有效检测小目标。DMNet(2020a年)利用了一种基于密度图的裁剪方法,以利用目标之间的空间和上下文信息来提高检测性能。尽管这些方法在小目标检测方面有效,但它们存在推理时间长和检测效率低的问题。QueryDet(2022年)在利用高分辨率特征的同时,引入了一种新颖的查询机制,以加速基于特征金字塔的目标检测器的推理速度。CEASC(2023年)引入了一种上下文增强的稀疏卷积,以捕获全局信息并增强焦点特征,从而在检测精度和效率之间取得平衡。这些工作提出了轻量级的解耦头部,在一定程度上加速了网络。然而,实现实时检测仍然具有挑战性。
多尺度信息提取与表示。小目标在特征图中通常仅由几个像素表示,因此需要多尺度信息来增强这些小目标的特征表示。许多工作也从这个方面进行了研究(2018年;2024年)。特征金字塔网络(FPN)将富含语义信息的深层特征与具有空间位置信息的浅层特征相集成,在一定程度上缓解了特征不平衡的问题。PANet(2018年)在FPN的基础上增加了一条自底向上的路径,促进了底层信息的传播并增强了信息交换。IPG-Net(2020年)将图像金字塔引入主干网络,以解决信息不平衡的问题。然而,整个过程消耗了大量的计算资源,不利于实时检测。在我们的工作中,我们专注于在主干网络中将深层语义信息与浅层空间位置信息相集成。这种集成缓解了特征提取过程中信息提取的不平衡问题,从而增强了小目标的表示。我们采用多尺度卷积核来加强不同尺度目标的特征表示。
我们在图3中展示了FBRT-YOLO的完整结构。该结构包括两个核心轻量级模块:特征互补映射模块(Feature Complementary Mapping Module, FCM)和多核感知单元(Multi-Kernel Perception Unit, MKP)。FCM旨在将更多的空间位置信息整合到丰富的语义特征中,从而增强小目标的表示能力。MKP则利用多种卷积核来捕获不同尺度下的目标信息。此外,针对航空图像检测,我们通过移除非关键或冗余计算来简化基准网络,进一步优化网络结构。
空间位置信息和语义信息整合不足可能导致目标信息的错配和不对齐。为了解决这一限制,我们提出了特征互补映射模块。该模块隐式地将更多的低层空间信息编码到高维向量中,并将其传递到网络的更深层。这使得检测器能够捕获更强的结构信息,从而增强语义信息的表达。FCM的详细结构如图3所示,它采用了分割、变换、互补映射和特征聚合的策略。以下是对该模块的详细介绍。
通道分割:我们首先将输入特征()的通道分割成两部分,一部分包含个通道,另一部分包含个通道,其中是分割比例。的值在网络中相当重要。随着网络的加深,包含低层空间信息的分支变得更加突出,越来越多的低层空间信息被隐式地编码到高维向量中。在适当的时候增强低层信息的获取可以提高性能。分割阶段可以表示为:
其中,,。
方向变换:为了分别获取语义信息和位置信息的空间映射,我们将得到的发送到由标准卷积组成的分支,在每个通道上提取更丰富的特征信息,在图3中表示为。则被发送到由逐点卷积组成的分支,逐点卷积提取的信息相对较弱,但保留了大量的浅层空间位置信息,在图3中表示为。这一变换过程可以用公式表示为:
其中,表示学习空间和语义信息之间的映射关系,包含丰富的通道信息,保留了更多的原始空间位置信息。
互补映射:目前,我们获得的特征和虽然有效,但却是离散的。这可能导致目标特征匹配不精确。因此,我们在它们之间进行互补映射,以补偿各自缺失的特征映射,实现高效特征匹配。我们将具有更丰富通道信息的进行通道交互。它可以为每个通道上的重要信息分配唯一的权重。然后,将其映射到具有低层空间位置信息特征的上,以进行互补特征融合。这使得交互后的信息能够获得更高层次的特征。类似地,具有更丰富低层空间位置信息的通过空间交互,为每个位置上的重要信息分配唯一的权重,并将其映射到具有丰富通道信息特征的上,以实现互补集成并获得更高层次的特征。这一过程实现了强特征对弱特征的引导,从而缓解了信息不平衡的问题。
其中,表示每个特征层通道的映射,是第个卷积核,是第个输入通道,是对应的单个输出通道。深度卷积后的输出结果是。
然后,进行全局平均池化以获得每个通道的全局信息,并通过sigmoid层最终获得关键信息权重。在通道上生成的唯一权重可以表示为:
其中,表示激活函数。
其中,表示具有空间聚合的卷积映射,。
特征聚合:在获得通道信息权重和空间信息权重后,将它们分别映射到包含和的特征上。然后,将两个分支连接在一起,以获得包含空间和语义关系双重映射的特征。的计算公式为:
其中,表示逐元素乘法。
总体而言,FCM模块采用了一种计算资源相对较低的信息互补融合方法。它将浅层空间位置信息传播到网络的更深层,缓解了主干网络下采样过程中目标空间位置信息的丢失问题。
航空图像中的小目标经常被背景噪声遮挡,导致有效信息有限。为了充分利用可用的特征信息,我们采用了一个多核感知单元来检测不同尺度的目标,并建立这些尺度之间的空间关系,从而增强上下文和小目标信息的特征表示。如图3所示,多核感知单元(MKP)将各种大小的卷积核依次连接起来,并在不同尺度的卷积核之间融入逐点卷积。整个过程可以用数学公式表示如下:
其中,表示输入的局部特征,而表示在多个尺度上全局映射的特征。表示核大小为的深度卷积。在我们的实验中,我们设置。表示逐点卷积变换。
目前,实时检测模型主要是为传统的低分辨率图像检测而设计的,但这并不适用于高分辨率航空图像检测,导致结构冗余显著。对于特征提取中的空间下采样,通道扩展先于深度卷积采样(2024年)。在深度卷积之后,通道之间存在干扰,导致空间信息丢失,这对于在复杂环境中检测航空图像是不利的。
然而,我们通过首先应用组卷积进行空间下采样,然后使用逐点卷积进行通道扩展来解耦这一过程。两种方法的参数计算如下:
其中,表示标准卷积的参数数量,表示我们方法的参数数量。和分别表示输入和输出通道数。在网络下采样过程中,通道扩展通常会导致。表示组数。
我们在三个基于航拍图像的目标检测基准数据集上进行了广泛实验,即 Visdrone、UAVDT 和 AI-TOD。除推理速度在单个 RTX 3080 GPU 上测试外,所有实验均在 NVIDIA GeForce RTX 4090 GPU 上进行。我们使用随机梯度下降(SGD)优化器训练网络,动量设为 0.937,权重衰减设为 0.0005,批大小设为 4,初始学习率设为 0.01,训练轮次为 300 轮。
如表 1 所示,我们将 FBRT-YOLO 与现有的实时检测器进行了比较。我们的 FBRT-YOLO 在不同模型规模下均实现了卓越的性能和更快的检测效率。对于资源受限的航拍作业设备,我们展示了与其他实时最先进目标检测器相比,不同规模的 FBRT-YOLO 模型的结果。对于小型模型,与 YOLOv8-N/S 相比,FBRT-YOLO-N/S 的参数数量分别减少了 72% 和 74%,同时在平均精度(AP)上分别提高了 0.6% 和 2.3%。对于中型模型,与 YOLOv8-M 和 YOLOv9-M 相比,FBRT-YOLO-M 的 GFLOPs 分别降低了 26% 和 23%,同时在 AP 上分别提高了 1.3% 和 1.2%。对于大型模型,与 YOLOv8-X 和 YOLOv10-X 相比,我们的 FBRT-YOLO-X 的参数数量分别减少了 66% 和 23%,同时在 AP 上分别显著提高了 1.2% 和 1.4%。此外,与 RT-DETR-R34/R50 相比,FBRT-YOLO-M/L 实现了更少的参数、更低的 GFLOPs、更高的检测速度和更好的检测性能。这些实验结果表明,我们的 FBRT-YOLO 作为实时航拍图像检测器具有优越性。
如表 2 所示,该表展示了我们的方法与其他最先进方法在 VisDrone 数据集上的对比结果,这表明我们的 FBRT-YOLO 能够有效地检测航拍图像。
为了更好地展示 FBRT-YOLO 在检测航拍图像方面的卓越性能,我们在图 4 中可视化展示了基线模型和我们方法的热力图。从结果中可以看出,FBRT-YOLO 增强了对小目标和密集排列目标的关注,展示了该方法在网络中增强空间和多尺度信息方面的优越性。
表 3 报告了我们在 UAVDT 数据集上的对比结果。我们提出的方法超越了现有方法,如 GLSAN(2020)和 CEASC(2023)。结果清楚地表明,我们提出的 FBRT-YOLO 在航拍图像检测方面实现了卓越的性能,AP 达到了 18.4%,优于其他最先进的方法。这证明了我们的检测框架的有效性。
复杂的背景会显著限制关于目标的有效信息。我们的方法侧重于通过网络层有效地传播目标的空间信息,以增强特征表示。如图 5 所示的检测结果可视化表明,我们的方法在复杂背景下显著提高了检测性能。
AI-TOD 数据集包含大量的小目标。为了更好地验证我们的方法在小目标检测方面的优越性,我们还在 AI-TOD 数据集上评估了 FBRT-YOLO。如表 4 所示,与基线相比,我们的方法将参数数量减少了 74%,GFLOPs 降低了 20%,同时 提高了 2.2%,AP 提高了 1.1%。
为了验证 FBRT-YOLO 中核心模块设计的有效性,我们在 VisDrone 数据集上设计了一系列消融实验。在所有消融实验中,我们使用 YOLOv8-S 作为基线模型。
表 5 中的实验结果展示了本工作中所有贡献的有效性。我们减少了基线模型中的固有冗余,对其进行了优化,参数减少了 18%,计算负载降低了 11%,尽管准确率略有下降。将 FCM 模块引入骨干网络的不同阶段,在深层网络中融入了空间位置信息,使得 提高了 1.4%,并进一步减少了网络计算资源。我们将骨干网络最后一层的下采样操作替换为 MKP 单元,以检测多尺度目标,从而使 AP 提高了 1.6%。值得注意的是,与基线网络相比,我们的网络在训练过程中收敛更快。
表 6 展示了所提出的通道和空间互补映射的结果。为了获得两种映射关系的最优配置,我们设计了一系列变体实验。根据实验结果,我们发现使用通道或空间映射的模型优于没有映射关系的模型。将两者结合可以取得更好的结果。与没有映射关系的模型相比,这种最优配置将 提高了 2.0%。
表 7 展示了不同参数 对实验结果的影响,其中 表示空间特征信息和通道特征信息的分割比例。从实验结果可以看出,随着下采样过程的进行,经过逐点卷积的空间特征部分的比例增加,实验效果会更好。我们推测,这种现象的原因是当 取值为 0.75, 0.75, 0.25, 0.25 时,在更深层的网络中保留了更多的空间位置信息,这有利于目标特征的定位和匹配。在更深层的网络中保留更多的空间位置信息也符合 FCM 模块设计的初衷。
表 8 展示了 MKP 中不同卷积核大小的实验结果。从实验结果可以看出,较小的卷积核为网络提供的感受野有限,无法建立强大的上下文关联,而较大的卷积核会引入显著的背景噪声,这对检测不利。通过使用不同大小的卷积核,我们可以捕获跨越不同大小的目标的多尺度特征。此外,我们在不同卷积核大小之间引入逐点卷积,以整合跨尺度的空间信息,从而实现最优性能。
在本文中,我们提出了一种新的实时航拍图像检测器系列,命名为 FBRT-YOLO。具体而言,它引入了两个轻量级模块:特征互补映射模块(FCM),旨在改善丰富语义信息与精确空间位置细节的融合;以及多核感知单元(MKP),旨在增强多尺度目标感知,并提高网络捕获跨尺度特征的能力。对于航拍图像检测,我们还减少了传统检测器中的固有冗余,进一步加速了网络。在 VisDrone、UAVDT 和 AI-TOD 数据集上的广泛实验结果表明,FBRT-YOLO 在航拍图像检测中实现了准确性和效率之间的高度平衡。