YOLO26如何训练自己的obb数据集（原理介绍+代码详见+结构框图） | （无人机航拍船舶为案列）

原创

AI小怪兽

发布于 2026-02-09 12:54:54

9160

文章被收录于专栏：毕业设计毕业设计 YOLO大作战

💡💡💡本文主要内容:YOLO26全新发布（原理介绍+代码详见+结构框图）| YOLO26如何训练自己的obb数据集（无人机航拍船舶为案列）

结构框图如下：

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域，专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践，旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

YOLO算法结构性创新：于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块，在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践，为行业提供了具备高参考价值的技术路径与完整解决方案。
技术生态建设与知识传播：独立运营 “计算机视觉大作战” 公众号（粉丝1.6万），成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码，显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

荣获腾讯云年度影响力作者与创作之星奖项，内容质量与专业性获行业权威平台认证。
全网累计拥有 7万+ 垂直领域技术受众，专栏文章总阅读量突破百万，在目标检测领域形成了广泛的学术与工业影响力。
具备丰富的企业级项目交付经验，曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案，驱动业务智能化升级。

💡 未来方向与使命

秉持 “让每一行代码都有温度” 的技术理念，未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新，共同推动技术边界，以坚实的技术能力赋能实体经济与行业变革。

💡💡💡本文主要内容:YOLO26全新发布（原理介绍+代码详见+结构框图）| YOLO26如何训练自己的数据集（裂缝分割为案列）

结构框图如下：

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

🚀 核心专长与技术创新

YOLO算法结构性创新：于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块，在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践，为行业提供了具备高参考价值的技术路径与完整解决方案。
技术生态建设与知识传播：独立运营 “计算机视觉大作战” 公众号（粉丝1.6万），成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码，显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

荣获腾讯云年度影响力作者与创作之星奖项，内容质量与专业性获行业权威平台认证。
全网累计拥有 7万+ 垂直领域技术受众，专栏文章总阅读量突破百万，在目标检测领域形成了广泛的学术与工业影响力。
具备丰富的企业级项目交付经验，曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案，驱动业务智能化升级。

💡 未来方向与使命

1.YOLO26原理介绍

论文：https://arxiv.org/pdf/2509.25164

摘要：本研究对Ultralytics YOLO26进行了全面分析，重点阐述了其关键架构改进及其在实时边缘目标检测中的性能基准测试。YOLO26于2025年9月发布，是YOLO系列最新、最先进的成员，专为在边缘及低功耗设备上实现高效、精确且易于部署的目标而构建。本文依次详述了YOLO26的架构创新，包括：移除了分布焦点损失（DFL）；采用端到端的无NMS推理；集成了渐进损失（ProgLoss）与小目标感知标签分配（STAL）；以及引入了用于稳定收敛的MuSGD优化器。除架构外，本研究将YOLO26定位为多任务框架，支持目标检测、实例分割、姿态/关键点估计、定向检测及分类。我们在NVIDIA Jetson Nano与Orin等边缘设备上呈现了YOLO26的性能基准测试，并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13及基于Transformer的检测器进行比较。本文进一步探讨了其实时部署路径、灵活的导出选项（ONNX、TensorRT、CoreML、TFLite）以及INT8/FP16量化技术。文章重点展示了YOLO26在机器人、制造业及物联网等领域的实际应用案例，以证明其跨行业适应性。最后，讨论了关于部署效率及更广泛影响的见解，并展望了YOLO26及YOLO系列的未来发展方向。

关键词：YOLO26；边缘人工智能；多任务目标检测；无NMS推理；小目标识别；YOLO（You Only Look Once）；目标检测；MuSGD优化器

Detection (COCO)

结构框图如下：

1.1 YOLO11 vs YOLO26结构差异性

1.1.1 SPPF 核心差异对比

1）池化次数灵活性：YOLO11 的 3 次池化是硬编码的，要修改必须改源码；YOLO26 通过n参数可灵活调整（比如设为 2 次或 4 次），无需改核心逻辑。

2）Shortcut 设计：YOLO26 新增的残差连接能缓解深层网络的梯度消失问题，提升特征复用能力，而 YOLO11 无此设计。

3）激活函数控制：YOLO26 禁用 Conv1 的激活函数，让特征在池化前保持更 “原始” 的状态，是工程上对特征提取的优化。

源码位置：ultralytics/nn/modules/block.py

1.1.2 C3k2 核心差异对比

1）注意力机制的新增：YOLO26 的 C3k2 首次引入PSABlock（金字塔注意力模块），通过attn参数控制是否启用，这是两者最核心的功能差异 —— 启用后模块会先通过 Bottleneck 提取基础特征，再通过 PSABlock 增强关键区域的特征权重，提升小目标 / 复杂场景的检测效果。

2）分支逻辑的扩展：YOLO11 的分支仅受c3k控制，而 YOLO26 的分支逻辑优先级为attn > c3k，即只要attn=True，会优先启用注意力模块，忽略c3k的配置。

重复模块m (n次迭代):
┌─────────────────────────────────────────────────────────┐
│                                                         │
│  如果 attn=True:                                        │
│    Sequential(                                          │
│        Bottleneck(self.c, self.c),                     │  ←─ 先特征提取
│        PSABlock(self.c, attn_ratio=0.5, num_heads=...) │  ←─ 后注意力增强
│    )                                                    │
│                                                         │
│  否则如果 c3k=True:                                     │
│    C3k(self.c, self.c, 2)                             │  ←─ 同YOLOv11
│                                                         │
│  否则:                                                  │
│    Bottleneck(self.c, self.c)                         │  ←─ 同YOLOv11
│                                                         │
└─────────────────────────────────────────────────────────┘

YOLO26 C3k2代码：

源码位置：ultralytics/nn/modules/block.py

1.2 YOLO26核心创新点

YOLO26引入了多项关键架构创新，使其区别于前几代YOLO模型。这些增强不仅提高了训练稳定性和推理效率，还从根本上重塑了实时边缘设备的部署流程。本节将详细描述YOLO26的四项主要贡献：（i）移除分布焦点损失（DFL），（ii）引入端到端无NMS推理，（iii）新颖的损失函数策略，包括渐进损失平衡（ProgLoss）和小目标感知标签分配（STAL），以及（iv）开发用于稳定高效收敛的MuSGD优化器。我们将详细讨论每一项架构增强，并通过对比分析突显其相对于YOLOv8、YOLOv11、YOLOv12和YOLOv13等早期YOLO版本的优势。

1.2.1 创新点1：移除分布焦点损失（DFL）

YOLO26最重要的架构简化之一是移除了分布焦点损失（DFL）模块（图3a），该模块曾存在于YOLOv8和YOLOv11等早期YOLO版本中。DFL最初旨在通过预测边界框坐标的概率分布来改进边界框回归，从而实现更精确的目标定位。虽然该策略在早期模型中展示了精度提升，但也带来了不小的计算开销和导出困难。在实践中，DFL在推理和模型导出期间需要专门处理，这使针对ONNX、CoreML、TensorRT或TFLite等硬件加速器的部署流程变得复杂。

源码位置：ultralytics/utils/loss.py

通过reg_max 设置为1，移除了分布焦点损失（DFL）

class BboxLoss(nn.Module):
    """Criterion class for computing training losses for bounding boxes."""

    def __init__(self, reg_max: int = 16):
        """Initialize the BboxLoss module with regularization maximum and DFL settings."""
        super().__init__()
        self.dfl_loss = DFLoss(reg_max) if reg_max > 1 else None

1.2.2 创新点2：端到端无NMS推理

YOLO26从根本上重新设计了预测头，以直接产生非冗余的边界框预测，无需NMS。这种端到端设计不仅降低了推理复杂度，还消除了对手动调优阈值的依赖，从而简化了集成到生产系统的过程。对比基准测试表明，YOLO26实现了比YOLOv11和YOLOv12更快的推理速度，其中nano模型在CPU上的推理时间减少了高达43%。这使得YOLO26对于移动设备、无人机和嵌入式机器人平台特别有利，在这些平台上，毫秒级的延迟可能产生重大的操作影响。

源码位置：ultralytics/utils/nms.py

1.2.3 创新点3：ProgLoss和STAL：增强训练稳定性和小目标检测

训练稳定性和小目标识别仍然是目标检测中持续存在的挑战。YOLO26通过整合两种新颖策略来解决这些问题：渐进损失平衡（ProgLoss）和小目标感知标签分配（STAL），如图（图3c）所示。

ProgLoss在训练期间动态调整不同损失分量的权重，确保模型不会过拟合于主导物体类别，同时防止在稀有或小类别上表现不佳。这种渐进式再平衡改善了泛化能力，并防止了训练后期的不稳定。另一方面，STAL明确优先为小目标分配标签，由于像素表示有限且易被遮挡，小目标尤其难以检测。ProgLoss和STAL共同为YOLO26在包含小目标或被遮挡目标的数据集（如COCO和无人机图像基准）上带来了显著的精度提升。

1.2.4 创新点4：用于稳定收敛的MuSGD优化器

YOLO26的最后一项创新是引入了MuSGD优化器（图3d），它结合了随机梯度下降（SGD）的优势与最近提出的Muon优化器（一种受大型语言模型训练中使用的优化策略启发而发展的技术）。MuSGD利用SGD的鲁棒性和泛化能力，同时融入了来自Muon的自适应特性，能够在不同数据集上实现更快的收敛和更稳定的优化。

源码位置：ultralytics/optim/muon.py

2.如何训练YOLO26模型

2.1 如何训练无人机航拍船舶数据集

核心网络模块

import torch
import torch.nn as nn
import math

class AnglePredictor(nn.Module):
    """角度预测模块"""
    def __init__(self, in_channels):
        super().__init__()
        self.conv = nn.Sequential(
            nn.Conv2d(in_channels, in_channels//2, 1),
            nn.BatchNorm2d(in_channels//2),
            nn.SiLU(),
            nn.Conv2d(in_channels//2, 1, 1)  # 输出角度参数
        )
        
    def forward(self, x):
        angle = self.conv(x)  # [B, 1, H, W]
        angle = torch.tanh(angle) * (math.pi / 2)  # 限制在[-π/2, π/2]
        return angle

class YOLO26_OBB_Head(nn.Module):
    """YOLO26 OBB检测头"""
    def __init__(self, num_classes=1, num_anchors=3):
        super().__init__()
        self.num_classes = num_classes
        self.num_anchors = num_anchors
        self.out_channels = (5 + num_classes) * num_anchors
        
        # 位置预测分支 (x, y, w, h)
        self.reg_conv = nn.Sequential(
            nn.Conv2d(256, 256, 3, padding=1),
            nn.BatchNorm2d(256),
            nn.SiLU(),
            nn.Conv2d(256, 4 * num_anchors, 1)
        )
        
        # 角度预测分支
        self.angle_predictor = AnglePredictor(256)
        
        # 分类分支
        self.cls_conv = nn.Sequential(
            nn.Conv2d(256, 256, 3, padding=1),
            nn.BatchNorm2d(256),
            nn.SiLU(),
            nn.Conv2d(256, num_classes * num_anchors, 1)
        )
        
        # 置信度分支
        self.obj_conv = nn.Sequential(
            nn.Conv2d(256, 256, 3, padding=1),
            nn.BatchNorm2d(256),
            nn.SiLU(),
            nn.Conv2d(256, 1 * num_anchors, 1)
        )
        
    def forward(self, x):
        """
        输入: [B, C, H, W]
        输出: [B, anchors, H, W, (5+num_classes)]
        """
        B, C, H, W = x.shape
        
        # 位置预测
        reg_pred = self.reg_conv(x)  # [B, 4*anchors, H, W]
        reg_pred = reg_pred.view(B, self.num_anchors, 4, H, W)
        
        # 角度预测
        angle_pred = self.angle_predictor(x)  # [B, 1, H, W]
        angle_pred = angle_pred.unsqueeze(1).repeat(1, self.num_anchors, 1, 1, 1)
        
        # 分类预测
        cls_pred = self.cls_conv(x)  # [B, cls*anchors, H, W]
        cls_pred = cls_pred.view(B, self.num_anchors, self.num_classes, H, W)
        
        # 置信度预测
        obj_pred = self.obj_conv(x)  # [B, anchors, H, W]
        obj_pred = obj_pred.view(B, self.num_anchors, 1, H, W)
        
        # 合并所有预测
        pred = torch.cat([
            reg_pred,           # [B, anchors, 4, H, W]
            angle_pred,         # [B, anchors, 1, H, W]
            obj_pred,           # [B, anchors, 1, H, W]
            cls_pred            # [B, anchors, num_classes, H, W]
        ], dim=2)  # [B, anchors, 5+num_classes, H, W]
        
        # 调整维度: [B, anchors, H, W, 5+num_classes]
        pred = pred.permute(0, 1, 3, 4, 2).contiguous()
        
        return pred

class YOLO26_OBB(nn.Module):
    """完整的YOLO26 OBB模型"""
    def __init__(self, num_classes=1):
        super().__init__()
        
        # Backbone
        self.backbone = CSPDarknet26()
        
        # Neck
        self.neck = PANet_BiFPN()
        
        # 三个检测头 (不同尺度)
        self.head_small = YOLO26_OBB_Head(num_classes, num_anchors=3)
        self.head_medium = YOLO26_OBB_Head(num_classes, num_anchors=3)
        self.head_large = YOLO26_OBB_Head(num_classes, num_anchors=3)
        
        # 锚框配置 (针对船舶检测优化)
        self.anchors = {
            'small': torch.tensor([[10, 13], [16, 30], [33, 23]]),
            'medium': torch.tensor([[30, 61], [62, 45], [59, 119]]),
            'large': torch.tensor([[116, 90], [156, 198], [373, 326]])
        }
        
    def forward(self, x):
        # Backbone提取特征
        features = self.backbone(x)
        
        # Neck多尺度融合
        small, medium, large = self.neck(features)
        
        # 各尺度检测
        pred_small = self.head_small(small)
        pred_medium = self.head_medium(medium)
        pred_large = self.head_large(large)
        
        return {
            'small': pred_small,
            'medium': pred_medium,
            'large': pred_large
        }

2.1.1 数据集介绍

2.2 训练可视化对比

2.2.1 不使用预训练模型

训练方式：

import warnings

warnings.filterwarnings('ignore')
from ultralytics import YOLO

if __name__ == '__main__':
    model = YOLO('ultralytics/cfg/models/26/yolo26-obb.yaml')
    #model.load('yolo26n.pt') # loading pretrain weights
    model.train(data='data/ship_detection.yaml',
                cache=False,
                imgsz=640,
                epochs=200,
                batch=32,
                close_mosaic=10,
                workers=2,
                device='0',
                # optimizer='SGD',   # using SGD,auto
                project='runs/train',
                name='exp',
                )

训练结果可视化结果

YOLO26-obb summary (fused): 132 layers, 2,446,602 parameters, 0 gradients, 5.4 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100% ━━━━━━━━━━━━ 11/11 3.8it/s 2.9s
                   all        343        338      0.717      0.657      0.756      0.449

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

yolo

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

yolo

登录后参与评论

0 条评论

热度