YOLOE-26：融合YOLO26与YOLOE，实现实时开放词汇实例分割

原创

AI小怪兽

发布于 2026-03-02 10:42:37

7770

文章被收录于专栏：毕业设计毕业设计 YOLO大作战

本文核心贡献如下：

1）架构融合：将YOLO26高效、无NMS的端到端检测框架与YOLOE的开放词汇学习范式相集成。

2）统一嵌入空间：提出统一对象嵌入空间，将分类重构为对象嵌入与多源提示嵌入的相似度匹配，支持文本、视觉及无提示三种模式。

3）高效提示机制：设计RepRTA（可重参化区域-文本对齐）和SAVPE（语义激活视觉提示编码器）等模块，实现零额外开销的开放词汇推理。

4）实时部署友好：保持YOLO家族的推理效率与部署简便性，为动态开放世界场景提供实用的实时实例分割解决方案。

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域，专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践，旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

YOLO算法结构性创新：于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块，在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践，为行业提供了具备高参考价值的技术路径与完整解决方案。
技术生态建设与知识传播：独立运营 “计算机视觉大作战” 公众号（粉丝1.6万），成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码，显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

荣获腾讯云年度影响力作者与创作之星奖项，内容质量与专业性获行业权威平台认证。
全网累计拥有 7万+ 垂直领域技术受众，专栏文章总阅读量突破百万，在目标检测领域形成了广泛的学术与工业影响力。
具备丰富的企业级项目交付经验，曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案，驱动业务智能化升级。

💡 未来方向与使命

秉持 “让每一行代码都有温度” 的技术理念，未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新，共同推动技术边界，以坚实的技术能力赋能实体经济与行业变革。

原理介绍

论文：https://arxiv.org/pdf/2602.00168

本文介绍 YOLOE-26：一个将部署优化的 YOLO26 架构与 YOLOE 的开放词汇学习范式相统一的框架，用于实现实时开放词汇实例分割。该方法基于 YOLO26 无 NMS、端到端的设计，在保持 YOLO 家族标志性效率与确定性的同时，将其能力扩展到了封闭集识别之外。YOLOE-26 采用带有 PAN/FPN 式多尺度特征聚合的卷积骨干网络，后接端到端的回归头和实例分割头。一个关键的架构贡献在于，使用对象嵌入头取代了固定的类别逻辑值，从而将分类问题构建为与来自文本描述、视觉示例或内置词汇的提示嵌入进行相似度匹配的任务。为实现高效的开放词汇推理，该框架集成了以下组件：用于零开销文本提示的“可重参数化区域-文本对齐”模块、用于示例引导分割的“语义激活视觉提示编码器”，以及用于无提示推断的“惰性区域提示对比”机制。所有提示模式均在统一的对象嵌入空间中运作，允许在文本提示、视觉提示和完全自主分割模式之间无缝切换。大量实验证明，无论是在有提示还是无提示的设置下，该模型在不同尺寸上均表现出一致的缩放行为和优良的精度-效率权衡。其训练策略利用大规模检测与定位数据集，结合多任务优化，并完全兼容 Ultralytics 生态系统，支持训练、验证和部署。总体而言，YOLOE-26 为动态真实世界环境中的实时开放词汇实例分割提供了一个实用且可扩展的解决方案。

YOLOE-26 完整伪代码

# ---------------------------
# YOLOE-26 整体架构伪代码
# ---------------------------
DEFINE YOLOE_26_MODEL():
    # 1. 初始化模型超参数（针对26轻量化版本）
    PARAMS = {
        "backbone_depth": 0.33,    # ESNet深度系数（对应26）
        "backbone_width": 0.50,    # ESNet通道系数
        "neck_depth": 0.33,        # RepGFPN深度系数
        "neck_width": 0.50,        # RepGFPN通道系数
        "num_classes": 80,         # 默认COCO数据集类别数
        "strides": [8, 16, 32],    # 输出特征图下采样步长
        "reg_max": 16              # 回归分支的max value（用于积分计算）
    }

    # 2. 骨干网络：ESNet（轻量级高效骨干）
    FUNCTION ESNet_BACKBONE(input_image, params):
        # 输入：RGB图像 (B, 3, H, W)，H/W需为32的倍数
        # 输出：3个尺度的特征图 (P3, P4, P5)
        
        # 阶段1：初始卷积 + 下采样（Conv + BN + Hardswish）
        x = ConvBNHardswish(input_image, out_channels=32, kernel=3, stride=2)
        
        # 阶段2-5：ESNet的核心模块（含深度可分离卷积 + 注意力机制）
        # 阶段2：输出步长4，通道64
        x = ES_Block(x, in_channels=32, out_channels=64, stride=2, params)
        # 阶段3：输出步长8，通道128 → P3
        P3 = ES_Block(x, in_channels=64, out_channels=128, stride=2, params)
        # 阶段4：输出步长16，通道256 → P4
        P4 = ES_Block(P3, in_channels=128, out_channels=256, stride=2, params)
        # 阶段5：输出步长32，通道512 → P5
        P5 = ES_Block(P4, in_channels=256, out_channels=512, stride=2, params)
        
        RETURN P3, P4, P5

    # 3. Neck模块：RepGFPN（融合多尺度特征）
    FUNCTION RepGFPN_NECK(P3, P4, P5, params):
        # 输入：骨干网络输出的3个尺度特征
        # 输出：融合后的3个尺度特征 (F3, F4, F5)
        
        # 步骤1：对P5上采样，与P4融合
        P5_up = Upsample(P5, scale=2)
        F4 = RepGFPN_Block(Concat(P4, P5_up), params)
        
        # 步骤2：对F4上采样，与P3融合
        F4_up = Upsample(F4, scale=2)
        F3 = RepGFPN_Block(Concat(P3, F4_up), params)
        
        # 步骤3：对F3下采样，增强F4
        F3_down = Downsample(F3, scale=2)
        F4 = RepGFPN_Block(Concat(F4, F3_down), params)
        
        # 步骤4：对F4下采样，增强F5
        F4_down = Downsample(F4, scale=2)
        F5 = RepGFPN_Block(Concat(P5, F4_down), params)
        
        RETURN F3, F4, F5

    # 4. 检测头：Decoupled Head（解耦分类/回归分支）
    FUNCTION DECOUPLED_HEAD(F3, F4, F5, params):
        # 输入：融合后的特征图
        # 输出：预测结果（分类+回归）
        
        # 初始化输出列表
        outputs = []
        
        FOR feat IN [F3, F4, F5]:
            # 分支1：分类分支（类别概率）
            cls_feat = ConvBNReLU(feat, out_channels=params["num_classes"] * 1, kernel=1)
            cls_pred = Sigmoid(cls_feat)  # 输出范围[0,1]
            
            # 分支2：回归分支（无锚框坐标预测）
            reg_feat = ConvBNReLU(feat, out_channels=4 * params["reg_max"], kernel=1)
            reg_pred = Integral(reg_feat, params["reg_max"])  # 积分计算真实坐标
            
            # 合并当前尺度预测结果
            outputs.append(Concat(cls_pred, reg_pred))
        
        # 拼接所有尺度结果，形状：(B, num_anchors, num_classes+4)
        final_pred = Concat(outputs, dim=1)
        
        RETURN final_pred

    # 5. 动态标签分配（训练阶段）
    FUNCTION DYNAMIC_LABEL_ASSIGNMENT(pred, gt_boxes, gt_classes, params):
        # 输入：预测结果、真实框、真实类别
        # 输出：分配后的正负样本标签
        
        # 步骤1：计算预测框与真实框的匹配度（IoU + 分类得分）
        match_cost = Compute_Match_Cost(pred, gt_boxes, gt_classes)
        
        # 步骤2：动态选择正样本（高匹配度）
        pos_mask = Select_Positive_Samples(match_cost, top_k=10)
        
        # 步骤3：负样本为非正样本区域
        neg_mask = ~pos_mask
        
        # 步骤4：生成标签（分类+回归）
        cls_label = Assign_Class_Label(pos_mask, gt_classes)
        reg_label = Assign_Reg_Label(pos_mask, gt_boxes)
        
        RETURN cls_label, reg_label, pos_mask, neg_mask

    # 6. 损失函数（训练阶段）
    FUNCTION COMPUTE_LOSS(pred, cls_label, reg_label, pos_mask, neg_mask):
        # 分类损失：BCEWithLogitsLoss（仅正样本）
        cls_loss = BCEWithLogitsLoss(pred[:, :, :params["num_classes"]][pos_mask], cls_label[pos_mask])
        
        # 回归损失：GIoULoss（仅正样本）
        reg_loss = GIoULoss(pred[:, :, params["num_classes"]:][pos_mask], reg_label[pos_mask])
        
        # 总损失
        total_loss = cls_loss + reg_loss
        
        RETURN total_loss

    # 7. 模型前向传播（训练/推理统一入口）
    FUNCTION FORWARD(input_image, gt_boxes=None, gt_classes=None, is_training=True):
        # 步骤1：骨干网络提取特征
        P3, P4, P5 = ESNet_BACKBONE(input_image, PARAMS)
        
        # 步骤2：Neck融合特征
        F3, F4, F5 = RepGFPN_NECK(P3, P4, P5, PARAMS)
        
        # 步骤3：检测头预测
        pred = DECOUPLED_HEAD(F3, F4, F5, PARAMS)
        
        # 步骤4：训练/推理分支
        IF is_training:
            # 训练阶段：计算损失
            cls_label, reg_label, pos_mask, neg_mask = DYNAMIC_LABEL_ASSIGNMENT(pred, gt_boxes, gt_classes, PARAMS)
            loss = COMPUTE_LOSS(pred, cls_label, reg_label, pos_mask, neg_mask)
            RETURN loss
        ELSE:
            # 推理阶段：后处理（NMS）
            pred_boxes = PostProcess(pred, params=PARAMS)  # NMS + 坐标还原
            RETURN pred_boxes

    # 返回模型入口
    RETURN FORWARD

# ---------------------------
# 模型使用示例
# ---------------------------
# 1. 初始化模型
yoloe_26 = YOLOE_26_MODEL()

# 2. 训练阶段
training_image = Random_Image(Batch_Size=8, H=640, W=640)  # 输入图像
gt_boxes = Random_Boxes(Batch_Size=8, Num_Boxes=5)         # 真实框
gt_classes = Random_Classes(Batch_Size=8, Num_Boxes=5)     # 真实类别
train_loss = yoloe_26(training_image, gt_boxes, gt_classes, is_training=True)

# 3. 推理阶段
infer_image = Load_Image("test.jpg", H=640, W=640)         # 加载测试图像
pred_boxes = yoloe_26(infer_image, is_training=False)      # 预测结果（含类别+坐标）

1 引言

目标检测与实例分割是计算机视觉中最基本的两大问题，使机器能够在图像和视频流中对物体进行定位、识别和轮廓描绘。这些能力构成了众多现实应用的核心，包括自动驾驶、机器人技术、智能监控、医学图像分析、精准农业和智能制造[1, 2, 3, 4]。在此类应用中，实时推理、低延迟和部署效率通常与识别精度同等重要。

“你只看一次”（YOLO）系列通过引入统一的单阶段检测流程，从根本上塑造了现代实时目标检测。YOLOv1将检测重构为一个端到端的回归任务，实现了前所未有的推理速度[5]。YOLOv2和YOLOv3通过锚框聚类、多尺度训练、更深的Darknet骨干网络和残差特征融合，扩展了这一范式，显著提高了鲁棒性和小目标检测能力[6, 7]。后续版本强调效率和稳定性，YOLOv4采用CSPDarknet和Mish激活函数[8]，YOLOv5过渡到PyTorch并采用现代训练流程[9]，YOLOv6引入EfficientRep和无锚框检测头[10]，YOLOv7则利用重参数化的ELAN架构[11]。最近的模型反映了向端到端和注意力感知设计的转变，包括无锚框的YOLOv8[12, 13]、PGI增强的YOLOv9[14]、无NMS的YOLOv10[15]、多任务扩展的YOLO11，以及基于注意力和图结构的YOLOv12和YOLOv13[16, 17]。

2025年发布的YOLOv26代表了这些趋势的顶峰。YOLOv26并未增加架构复杂性，而是采纳了一种以效率、鲁棒性和简洁性为中心的“部署优先”理念。其关键创新包括：原生的无NMS端到端预测器、移除分布焦点损失（DFL）以实现更快推理，以及引入MuSGD优化器以实现稳定快速的收敛[18]。这些设计选择显著降低了端到端延迟，提升了在低功耗CPU和边缘设备上的性能，同时支持检测、实例分割、姿态估计、定向检测和分类等多种视觉任务。

尽管如图2(a,b)所示，包括YOLOv26的端到端无NMS设计在内的历代YOLO模型在精度-延迟效率上取得了实质性进步，但这些模型本质上仍受限于封闭词汇表（closed-vocabulary）的设定，即在训练时物体类别就已固定，在推理时无法适应未见过的概念。这一限制在开放世界场景中构成了重大挑战，因为在开放世界中，物体类别不断演变，重新训练是不切实际的。基础模型和视觉-语言学习的最新进展催生了开放词汇表（open-vocabulary）目标检测和实例分割，使得模型能够通过文本提示、视觉示例或无提示（prompt-free）推理来识别未见过的类别[19, 20]。然而，许多现有的开放词汇表方法依赖于计算量大的Transformer架构或大型语言模型，导致计算成本高、推理速度慢，并且在边缘硬件上的部署能力有限[20]。

YOLOE（You Only Look Once - Everything）范式通过基于嵌入的分类和统一支持文本提示、视觉提示及无提示操作来扩展YOLO框架，从而解决了这一差距，实现了“识别万物”，同时保留了YOLO标志性的高效性[21]。通过将视觉特征与语义嵌入对齐，而非固定的类别逻辑值，YOLOE将受基础模型启发的开放词汇表学习引入了实时检测与分割领域。

本文中，我们对YOLOE-26进行了全面评估，它结合了YOLOv26的无NMS、端到端检测流程与YOLOE的开放词汇表学习机制，实现了跨多种提示范式的实时实例分割（来源链接）。通过整合YOLOv26的部署优化设计与YOLOE的开放词汇表能力，YOLOE-26建立了一个统一且实用的框架，用于实时的、开放世界的实例分割。本研究系统分析了其在文本提示、视觉提示和无提示设置下的性能，重点阐述了其精度-效率权衡及其对下一代边缘和开放世界视觉系统的适用性。

1.1 背景与动机

基于卷积神经网络（CNN）的目标检测框架，特别是YOLO家族，凭借其统一的架构、高推理速度和良好的精度-效率权衡，近十年来主导了实时视觉感知领域[22, 23]。从YOLOv1到YOLOv26，这些模型逐步将目标检测从基于网格的回归转变为高度优化的端到端流程。早期版本（YOLOv1–YOLOv3）依赖于密集网格预测和固定类别的分类头，这限制了语义的灵活性，并且需要仔细调整锚框和尺度[5, 6, 7]。后续几代引入了多尺度特征金字塔、更深的骨干网络和改进的损失函数，以增强对不同尺寸物体的鲁棒性，确立了YOLO在资源受限环境下作为实时检测实际标准的地位。

随着YOLO走向成熟，架构重点转向了部署鲁棒性和流程简化。YOLOv5–YOLOv7引入了基于PyTorch的实现、无锚框检测头、可重参数化的卷积块和高效的特征聚合机制，显著降低了训练和推理的复杂性[9, 10, 11]。更近期的版本，包括YOLOv8和YOLOv9，强调了解耦检测头、任务对齐优化和多任务感知，将YOLO的适用性扩展到了实例分割、姿态估计和全景理解[12, 14]。这一演进在YOLOv10和YOLOv26达到顶峰，它们消除了非极大值抑制（NMS）等启发式后处理，实现了完全的端到端检测，降低了延迟并提高了确定性[15, 18]。如图2(a)所示，与早期的YOLO变体和其他实时检测器相比，YOLOv26实现了更优的精度-延迟平衡；而图2(b)则突显了其相对于基于Transformer的实时基线在端到端流程效率上的优势。

尽管取得了这些架构上的进步，包括YOLOv26在内的基于CNN的YOLO检测器，从根本上仍受限于封闭集学习范式，即物体类别在训练期间预定义，并在推理时固定不变[24, 25]。在诸如自主机器人、农业监测和工业检测等现实场景中，物体类别频繁演变，使得重复的数据收集、重新训练和部署变得不切实际。这些限制阻碍了其在开放世界环境中的适应性，并推动了向开放词汇表视觉系统的转变。

开放词汇表检测和实例分割方法试图通过利用大规模视觉-语言预训练和语义嵌入来克服封闭集的限制[26, 27]。诸如GLIP、Grounding DINO、OWL-ViT、DINO-X、X-Decoder、OpenSeeD和SEEM等模型通过将视觉区域与文本或多模态表示对齐，展示了强大的零样本和开放集能力。然而，这些方法通常依赖于计算量大的Transformer骨干网络、密集的跨模态注意力和外部语言模型，导致计算成本高、推理延迟增加和内存占用大。这些特性严重限制了实时性能和边缘部署能力，尤其是在安全关键和低功耗的应用中。

YOLOE代表了将开放词汇表学习集成到高效YOLO式架构中的关键一步[21]。通过引入基于嵌入的分类并统一支持文本提示、视觉提示和无提示推理，YOLOE在单一模型内实现了开放词汇表检测与分割[28, 29, 30]。尽管如此，早期的YOLOE设计在与提示处理效率、跨部署场景的可扩展性以及完全利用端到端检测流程方面仍存在局限。如图3所示，虽然相较于之前的YOLO-World变体，YOLOE提升了开放词汇表性能，但在平衡训练成本、推理效率和实际部署能力方面仍面临挑战。

YOLOE-26的动机在于，通过将YOLOv26的无NMS、端到端检测框架与YOLOE的开放词汇表学习机制紧密集成，来系统地解决这些局限性。通过将部署高效的基于CNN的检测与轻量级的视觉-语言嵌入策略相统一，YOLOE-26能够在不牺牲实时性能的前提下，实现文本提示、视觉提示和无提示的实例分割。这一设计使YOLOE-26成为机器人、自主系统、监控和精准农业等动态开放世界视觉应用的实用解决方案，这些应用同时需要语义灵活性和部署效率。

2 YOLOE-26架构概述

2.1 核心的YOLO26架构骨干与端到端设计

YOLOE-26是一个统一的架构，将YOLOv26高效部署、无NMS的设计与YOLOE引入的开放词汇表学习机制紧密结合。如图4所示，该模型遵循经典的YOLO流程——骨干网络、颈部网络和任务特定头部——同时用支持开放世界实例分割的语义嵌入公式替换了传统的封闭集分类头。

YOLOv26骨干与特征提取：YOLOE-26的核心继承了YOLOv26的卷积骨干网络，该骨干旨在跨不同硬件平台实现高效的多尺度特征提取。给定输入图像 I ∈ R^{3×H×W}，骨干网络应用一系列层级化的卷积层来提取多个分辨率下的特征图。这些特征编码了低级的空间细节和高级的语义上下文，这对于检测不同大小的物体至关重要。与早期的YOLO变体相比，YOLOv26强调简化的卷积块和优化的梯度流，在保持表征能力的同时减少了计算开销。

颈部：PAN/FPN式特征聚合：提取的骨干特征被传递到一个PAN/FPN式的颈部网络，该网络跨尺度聚合信息。令{P3, P4, P5}表示语义级别递增、空间分辨率递减的特征图。颈部通过上采样、拼接和卷积操作进行自上而下和自下而上的融合，确保每个检测点都能访问到细粒度的定位线索和全局的语义信息。这种多尺度聚合对于实例分割尤为重要，因为在分割中必须同时推断出精确的物体边界和物体身份。

端到端回归与分割头部：对于聚合特征图中的每个锚点（或网格位置），YOLOE-26采用多个任务特定的头部。回归头预测边界框参数（通常编码为相对于锚点的偏移量），实现精确的物体定位。并行地，实例分割头遵循现代YOLO分割模型中常见的基于原型的设计。它生成一组全局掩码原型和每个实例的掩码系数，通过线性组合来生成实例特定的分割掩码。这种设计将空间掩码表示与实例预测解耦，实现了高效率和高可扩展性。

无NMS的端到端检测：YOLOv26（被YOLOE-26继承）的一个决定性特征是移除了非极大值抑制（NMS）。传统的YOLO流程依赖NMS作为后处理步骤来消除冗余检测，这引入了额外的延迟和启发式复杂性。相反，YOLOv26采用了一种端到端的训练公式，强制要求预测与真实标注之间的一致性分配，使网络能够直接学习互斥性。因此，最终预测可以在一次前向传播中获得，从而提高了确定性、降低了延迟并简化了部署——在类别空间大且动态变化的开放词汇表设置中，这一优势变得越来越重要。

用于开放词汇表学习的物体嵌入头：YOLOE-26引入的最关键的架构修改是用物体嵌入头（object embedding head）取代了封闭集分类头。该嵌入头不再预测一组固定类别标签上的逻辑值，而是为每个锚点输出一个语义嵌入向量。形式上，令 O ∈ R^{N×D} 表示为N个锚点生成的物体嵌入，其中D是嵌入维度。这些嵌入在一个共享的语义空间中表示视觉物体实例，从而能够与任意的类别表示进行灵活的匹配。

提示嵌入与基于相似度的分类：YOLOE-26通过将所有提示编码到一个公共的嵌入空间中来支持三种提示模式：文本提示、视觉提示和无提示推理。给定一组C个提示，其嵌入表示为 P ∈ R^{C×D}。类别预测随后被构建为物体嵌入与提示嵌入之间的相似度操作：

可重参数化区域-文本对齐（RepRTA）：为了在不产生推理开销的情况下改善视觉-文本对齐，YOLOE-26在训练期间使用RepRTA。文本提示首先使用预训练的文本编码器进行编码，产生嵌入P。一个轻量级的辅助网络 f_θ 在训练期间对这些嵌入进行微调，以更好地与视觉特征对齐。微调后的嵌入通过卷积操作与物体嵌入交互：

语义激活视觉提示编码器（SAVPE）：对于视觉提示，YOLOE-26引入了SAVPE，这是一个避免使用计算量大的Transformer设计的轻量级编码器。SAVPE由一个提取与提示无关的语义特征的语义分支，和一个从视觉线索（如边界框或掩码）生成提示感知权重的激活分支组成。这些组件被聚合以形成视觉提示嵌入：

用于无提示推理的惰性区域-提示对比：在没有显式提示的情况下，YOLOE-26采用惰性区域-提示对比（LRPC）来高效地识别和命名物体。训练一个专门的提示嵌入 P_s 来检测物体性（objectness），从而过滤出相关的锚点：

2.2 统一的物体嵌入空间

如图5所示，YOLOE-26的一个核心设计原则是用支持灵活的、开放词汇表推理的统一物体嵌入空间取代传统的封闭集分类。在传统的YOLO检测器中，每个锚点使用基于Softmax或Sigmoid的分类器预测固定类别标签集合上的概率分布[31, 32, 33]。这种公式将视觉特征紧密耦合到预定义的类别上，限制了对未见概念的泛化。相反，YOLOE-26通过连续的语义嵌入来表示每个检测到的实例，使得类别推理可以通过相似度匹配而非显式的类别预测来实现。

具体而言，对于每个锚点，物体嵌入头输出一个D维向量，该向量编码了底层物体的视觉外观和语义属性[34, 35]。这些物体嵌入与检测和分割任务联合学习，确保了空间定位、掩码预测和语义表征之间的对齐。同时，作为文本提示、视觉提示或无提示物体描述符提供的类别描述被映射到相同的D维嵌入空间，产生一组提示嵌入。分类则通过计算物体嵌入与提示嵌入之间的相似度（通常通过内积或余弦相似度）来执行，产生表示每个物体属于给定语义类别可能性的亲和度分数。

这种基于嵌入的公式在单一架构内统一了多种推理模式。文本提示允许用户使用自然语言描述来指定物体类别，视觉提示允许通过示例区域或掩码来指定类别，而无提示模式则依赖于学习到的物体性嵌入从内置词汇表中检索类别名称。重要的是，所有三种模式共享相同的物体嵌入头，在推理时无需任务特定的分类分支或外部语言模型。

从应用角度来看，统一的物体嵌入空间使得无需重新训练即可进行零样本和开放世界实例分割。只需在推理时提供相应的提示嵌入，即可引入新的类别，这使得YOLOE-26非常适合机器人、自主导航、监控和精准农业等动态现实环境。通过将语义推理与固定标签空间解耦，同时保留YOLO式检测的效率，YOLOE-26在灵活性与实时部署能力之间实现了实用的平衡。

2.3 文本/视觉提示与无提示开放词汇表实例分割的性能评估

本小节对YOLOE-26在两种互补的开放词汇表推理范式下的性能进行了全面分析：文本/视觉提示分割和无提示分割。定量结果分别总结在表1和表2中，两者均在640像素分辨率下使用端到端指标在minival基准上进行评估。这些表格共同为YOLOE-26在不同模型规模和提示策略下的精度-效率权衡提供了关键见解，直接指导现实世界的部署决策。

表1报告了通过文本或视觉提示提供明确语义引导时的性能。在YOLOE-26模型家族中观察到了一个清晰且一致的缩放趋势，即增加模型容量会带来分割精度的显著提升。特别是，YOLOE-26x-seg实现了最高的整体性能，其mAP50–95达到39.5（文本）和36.2（视觉），同时在稀有、常见和频繁类别划分上均表现出强劲结果。这突显了统一物体嵌入空间和提示感知对齐机制在处理长尾类别分布方面的有效性，而这在开放世界场景中很常见。从应用角度来看，这种性能在机器人、监控和精准农业等领域尤其有价值，在这些领域中，必须基于语义描述（而非固定标签）可靠地分割稀有物体实例（例如，不常见的工具、罕见的车辆类型或早期的作物异常）。

中等规模的模型，如YOLOE-26m-seg和YOLOE-26l-seg，在精度和计算成本之间提供了引人注目的平衡。例如，YOLOE-26l-seg以少于90 GFLOPs的计算量交付了超过36的mAP50–95值，使其非常适合用于自主无人机、移动机器人和工业检测系统中的边缘GPU和嵌入式加速器。相比之下，nano和small变体优先考虑效率，以显著更低的参数量和FLOPs实现了可观的分割精度，这对于在低功耗设备和实时视频分析流程上的部署至关重要。

重要的是，无提示结果表现出与提示设置相同的单调缩放行为，证实了YOLOE-26的架构设计在不同推理模式下具有通用性。较小的无提示模型，如YOLOE-26n-seg-pf和YOLOE-26s-seg-pf，为连续背景监测和基于边缘的感知提供了轻量级解决方案，而较大的变体则使得在计算资源丰富的环境中实现更丰富的语义覆盖成为可能。总体而言，表1和表2的联合分析表明，YOLOE-26为现实世界的开放词汇表实例分割提供了一个灵活且可扩展的框架，支持引导式和非引导式的感知，并具有适用于多种部署场景的强大精度-效率权衡。

3 开放词汇表提示机制

YOLOE-26的一项关键能力是通过多种提示机制支持开放词汇表实例分割[36, 37, 38]。与依赖于在训练期间学习到的一组固定类别逻辑值的传统基于YOLO的检测器不同，YOLOE-26将语义类别推理与封闭集分类解耦。相反，物体识别被构建为学习到的物体嵌入与来自文本、视觉示例或内置词汇表的提示嵌入之间的相似度匹配问题。本节描述了YOLOE-26支持的三种互补的提示机制——文本提示、视觉提示和无提示推理——并解释了它们如何共同实现灵活、实时且易于部署的开放世界感知。

3.1 文本提示实例分割

文本提示允许用户使用自然语言描述（如“人”、“公共汽车”或“红苹果”）来指定目标物体。在YOLOE-26中，文本提示被编码为语义嵌入，并与每个锚点预测的物体嵌入进行对齐。得到的相似度分数决定了类别分配和实例掩码生成。

为了实现高效的视觉-文本对齐，YOLOE-26采用了可重参数化区域-文本对齐策略。在训练期间，RepRTA引入一个轻量级的辅助网络，用于微调预训练的文本嵌入，以更好地与物体嵌入对齐。重要的是，这个辅助网络在训练后被重参数化到物体嵌入头中，从而在推理时实现零额外成本。这一设计在保持YOLOv26速度和确定性的同时，实现了开放词汇表推理。

3.2 视觉提示实例分割

文本描述并不总是足以精确指定物体，特别是在农业、医学成像或工业检测等领域。因此，YOLOE-26支持视觉提示，即用户提供示例边界框或掩码来定义目标物体。

这一功能由语义激活视觉提示编码器实现，它由两个轻量级分支组成：（i）一个提取与提示无关的视觉特征的语义分支，以及（ii）一个将视觉线索编码为提示感知权重的激活分支。这些分支被聚合以形成一个紧凑的视觉提示嵌入，并与物体嵌入对齐，从而以最小的计算开销实现高效匹配。

3.3 无提示实例分割

YOLOE-26进一步支持无提示推理模式，以实现完全自主的感知。这些模型使用一个包含4,585个类别（源自RAM++标签）的内置词汇表进行操作。YOLOE-26并非采用生成式语言模型，而是引入了惰性区域-提示对比策略，该策略首先识别物体区域，然后仅针对相关区域选择性地检索类别名称。

综上所述，这三种提示机制将文本引导、示例引导和自主感知统一在单一架构内。这种多功能性使得YOLOE-26非常适合在机器人、自主系统、监控、工业检测和精准农业等物体类别动态且不断演变的现实世界中进行部署。

4 训练策略与实现

本节描述了YOLOE-26的训练策略和实际实现细节，重点在于如何在不牺牲可部署性的前提下，将开放词汇表学习集成到YOLOv26风格的实时实例分割流程中。YOLOE-26继承了YOLOv26的端到端、无NMS的高效性，同时采用了YOLOE[29]引入的可提示开放词汇表学习范式。其核心理念是，检测器不仅被训练以定位和分割物体，还被训练以生成可与来自文本、视觉线索或内置词汇表的提示嵌入进行匹配的语义物体嵌入。与在推理时需要在图像标记和文本标记之间进行密集交叉注意力的、计算量大的开放词汇表Transformer模型不同，YOLOE-26旨在将大部分的跨模态对齐复杂性推入训练阶段，然后对模块进行重参数化，使推理过程保持类似YOLO的风格。

4.1 数据集、标注来源与监督信号

训练数据来源：YOLOE-26使用大规模检测和定位数据集进行训练，这些数据集共同提供了多样化的物体类别、语言定位和丰富的视觉变化。实践中，通常使用三个公共来源：Objects365（带边界框的目标检测）、GQA（与语言对齐的定位式标注）和Flickr30k Entities（短语定位）。这些数据集提供了互补的监督：Objects365贡献了广泛的物体多样性和密集的边界框；GQA和Flickr30k将文本短语与区域关联起来，这对于学习提示对齐至关重要。
分割监督：由于并非所有大规模的定位/检测数据集都提供高质量的实例掩码，YOLOE-26训练通常使用伪掩码生成来产生分割目标。一种常见方法是使用强大的分割模型从提供的边界框生成实例掩码，然后对掩码进行细化以减少标签噪声。在实现中，细化步骤可以包括移除碎片化区域、抑制框外泄漏、过滤小的虚假成分以及强制掩码平滑。目标并非取代人工标注的掩码，而是创建足够准确的监督信号，以支持大规模训练分割头部。
多源监督方案：设训练样本由图像I和一组标注区域{ (b_i, m_i, y_i) }组成，其中b_i是边界框，m_i是实例掩码（真实标注或伪掩码），y_i是语义标签。在定位数据集中，y_i可能来自一个短语而非规范类别名称；因此，YOLOE-26将语言短语映射到提示嵌入，使得即使不同数据集间的词汇表不同，监督也能保持一致。
提示条件化训练目标：对于文本提示，每个语义标签y_i由文本提示嵌入p(y_i)表示。对于视觉提示，训练样本额外包含一组参考视觉线索，用于构建视觉提示嵌入。对于无提示训练，目标是学习物体性（objectness）和词汇表检索，而无需显式的用户提示。这通常分两个阶段完成：（i）学习一个专门的物体性提示，以识别对应物体的锚点；（ii）仅通过匹配这些候选锚点，从内置词汇表中检索名称。

4.2 目标函数与优化

YOLOE-26优化一个多任务损失，该损失耦合了定位、分割和语义对齐。模型为每个锚点预测一个边界框、一个掩码表示和一个物体嵌入。令 O ∈ R^(N×D) 表示N个锚点、嵌入维度D的预测物体嵌入。令提示嵌入为 P ∈ R^(C×D)。用于类别分配的相似度分数可写为：

其中 S_n,c 表示锚点n与提示c的匹配程度。这些分数取代了封闭集检测器中传统的固定类别逻辑值。

(i) 基于嵌入的分类损失：YOLOE-26通常在相似度分数上应用二元交叉熵式目标，将正确的锚点-提示对视为正样本。设 t_n,c ∈ {0, 1} 表示锚点n是否匹配提示c。分类项可表示为：

(ii) 边界框回归损失：对于定位，YOLOE-26使用IoU族损失计算预测框与真实框之间的回归损失：

(iii) 定位细化损失：在具有分割能力的YOLO变体中，有时会使用基于分布的回归目标来实现亚像素级的精度。如果包含此项，细化项可以写成关于离散化偏移量的分布焦点损失形式。在YOLOv26风格的部署中，回归目标可能会被简化以提高速度；因此，YOLOE-26的实现通常将此损失项设为可配置的，取决于目标是追求最大精度还是最大效率。
(iv) 掩码分割损失：YOLOE-26采用YOLACT/YOLO-Seg风格的掩码表示，预测一组原型和每个实例的掩码系数。设M_i为实例i的预测掩码，m_i为目标掩码。标准选择是逐像素二元交叉熵：

可选择性地结合Dice损失以增强对前景/背景像素类别不平衡的鲁棒性。

(v) 总损失：总体目标是加权和：

其中λ权重调整语义对齐、定位和分割质量之间的平衡。

优化与调度：训练通常分阶段进行，以减少计算量并稳定不同提示模式下的优化。一个实用的调度是：
1. 文本提示预训练：利用RepRTA和大规模定位数据学习强大的区域-文本对齐。
2. 视觉提示适应：使用基于框/掩码的视觉线索微调SAVPE，通常冻结模型的大部分参数，从而降低训练成本。
3. 无提示专业化：训练一个物体性提示，并启用从大型词汇表的惰性检索，强调效率和覆盖率而非提示特异性。

由于RepRTA可以被重参数化到嵌入头中，最终的推理计算图可以保持紧凑。对于视觉提示，冻结大多数层并仅更新SAVPE尤为有利：它减少了VRAM需求，缩短了训练时间，并保留了预训练检测器的表征。实践中，AdamW常用于提示编码器的微调，而SGD风格的优化器可能用于大规模预训练，具体取决于稳定性和吞吐量需求。

4.3 实现流程、训练器与Ultralytics集成

模型变体与操作模式：YOLOE-26以多种规模（N/S/M/L/X）和两个操作系列分发：（i）文本/视觉提示模型和（ii）无提示模型。两个系列都支持在Ultralytics生态系统内进行推理、验证、训练（微调）和导出，实现了从研究到部署的一致工作流。
在自定义数据集上微调：在自定义分割数据集上微调YOLOE-26紧密遵循标准YOLO训练，但需要一个提示感知的训练器来处理基于嵌入的分类和提示构建。对于实例分割微调，从业者通常使用特定于分割的训练器，以确保掩码分支、嵌入头和提示模块得到一致优化。重要的是，微调可以以封闭集风格或开放词汇表风格进行，具体取决于期望的部署行为。
从分割检查点进行仅检测的微调：当训练检测模型而非分割模型时，一个实用的方法是初始化一个检测配置，从同规模的分割检查点加载权重，然后使用特定于检测的训练器进行训练。这复用了学习到的嵌入和定位特征，同时在不需要时丢弃特定于掩码的参数。
视觉提示训练效率：YOLOE风格模型的一个独特实现细节是，视觉提示模型可以通过从训练好的文本提示模型微调获得。由于SAVPE是需要适应的主要模块，可以冻结整个骨干网络、颈部网络和大多数头部，仅更新与SAVPE相关的层。这显著减少了计算量，使得专门针对视觉提示的短期训练成为可能。典型的工程工作流包括从训练好的文本提示检查点开始，冻结除SAVPE外的所有层，在视觉提示监督下进行少量轮次的训练。
验证与提示提取：在验证中，提示嵌入的构建必须与训练一致。Ultralytics风格的API通常通过标志位来支持这一点，以自动计算和缓存类别嵌入。这种设计减轻了用户负担，并标准化了跨数据集的评估协议。
导出与部署：YOLOE-26的一个主要优势是其部署遵循熟悉的YOLO导出途径。对于文本提示导出，从业者在导出前配置提示集，因此导出的模型包含折叠的提示表示，从而生成与边缘运行时兼容的推理计算图，无需在部署时使用外部文本编码器。无提示模型像标准YOLO模型一样直接导出，因为它们不需要运行时提示输入。
实际使用模式：在实际应用中，可以组合提示模式以最大化可用性。一个常见模式是无提示发现后接提示细化：系统首先使用内置词汇表识别一组广泛的物体，然后用户或下游代理通过文本或视觉提示指定一小部分目标概念，以获得精确的实例掩码。这种混合工作流在机器人、农业监测和大规模图像/视频分析中非常有效，因为这些场景中的物体集合不断演变，重复训练的成本过高。

总而言之，YOLOE-26的训练和实现围绕“部署优先”的理念设计：通过提示对齐目标和分阶段专业化实现大规模开放词汇表学习，而最终的推理系统保持轻量级、端到端，并与标准YOLO加速工具链兼容。

5 结论与未来路线图

本文对YOLOE-26进行了系统评估，这是一个统一框架，集成了YOLOv26面向部署、无NMS、端到端的设计，以及作为基础版本的YOLOE所引入的开放词汇表、可提示学习范式。该模型通过支持在三种互补模式下进行实时实例分割，推进了开放词汇表图像分割领域的发展。与通常带来大量延迟和内存开销的、计算量大的视觉-语言Transformer模型相比，YOLOE-26通过基于嵌入的相似度匹配和可重参数化的提示组件，保留了YOLO家族的速度和确定性。总体而言，YOLOE-26在开放世界语义灵活性与面向边缘的实时分割之间提供了实用的平衡，使其与机器人、自主系统、精准农业、智能监控、医学成像和工业检测等高影响力应用领域高度契合。

尽管有这些优势，但仍存在重要的局限性，这为未来的研究和工程指明了清晰的路线图。首先，无提示性能仍持续低于文本和视觉提示设置，这反映了在大型词汇表环境中进行无约束的开放世界物体发现的固有难度。其次，大规模训练依赖于多源监督和伪掩码生成，这可能引入标签噪声，并降低薄结构、严重遮挡物体和细粒度类别的边界精度。第三，开放词汇表泛化对提示措辞、数据集偏差和长尾语义敏感，统一的嵌入空间可能无法总是在没有更强对齐约束的情况下完全分离视觉上相似的类别。第四，虽然推理高效，但在极端计算和能耗约束下的实际部署仍面临挑战，包括量化鲁棒性、大型词汇表的内存开销以及安全关键应用中可靠的置信度校准。

YOLOE-26的未来发展，如图6所示，应优先考虑通过自主智能体和智能代理实现完全自主的开放词汇表分割，以在现实环境中持续改进感知能力。一个自然的方向是将YOLOE-26集成到一个代理感知循环中，该循环执行无提示物体发现、使用上下文线索自动优化提示、在预测模糊时进行不确定性感知的重新提示，以及通过时间或多视角一致性检查进行自我验证。这样的代理学习流程可以实现无需重复完整训练就能进行闭环语义适应，支持在动态和演化的场景中长期自主运行。同时，融入轻量级视觉-语言推理模块可以帮助生成更具区分性的提示（如基于属性或组合的描述），从而提高对领域偏移和长尾类别的鲁棒性。

从学习和系统角度来看，几个路线图方向可以进一步将YOLOE-26打造成一个通用的开放词汇表分割框架。持续和联邦开放词汇表学习可以实现增量式类别扩展和个性化适应，同时缓解灾难性遗忘并保护数据隐私。自监督和弱监督的掩码细化策略，包括迭代伪标签清理、边界感知损失和视频中的时间一致性，可以减少对成本高昂的人工标注的依赖，并提高像素级精度。分层和组合的嵌入空间可以显式编码类别、属性和物体部件，提高视觉相似类别的可分离性，并支持可扩展的无提示检索。最后，边缘优先的部署优化，包括量化感知训练、模型蒸馏、提示缓存和大型词汇表的高效索引，对于确保在CPU、嵌入式GPU和移动NPU上的实时性能至关重要。

总之，YOLOE-26证明了通过将端到端检测与轻量级视觉-语言嵌入机制紧密集成，可以实现具备YOLO级别效率的开放词汇表图像分割。展望未来，YOLOE-26与AI代理和代理学习范式的结合，为开发完全自主、自我改进、可部署就绪的视觉-语言分割系统提供了一条引人注目的途径，该系统能够发现新物体、细化语义理解、适应不断变化的环境，并在多样化的现实世界场景中保持实时性能。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

yolo

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

yolo