本文将详细介绍如何使用DINOv3进行目标检测任务,以血细胞分类为例,展示从数据准备到模型训练再到推理部署的完整流程。1. """血细胞分类训练脚本 - 使用DINOv3特征 + 随机森林分类器这种方法更简单直接,通常在小数据集上效果更好DINOv3 使用 patch_size=16,**要求输入图像尺寸必须是 16 的倍数 模型: dinov3_vits16 使用本地仓库: /data/william/Workspace/dinov3✓ DINOv3模型加载完成 提取train集特征...处理train集: 100%|██ 模型: dinov3_vits16 使用本地仓库: /data/william/Workspace/dinov3✓ DINOv3模型加载完成模式: 使用标注框进行分类图像: BCCD_Dataset/BCCD 通过结合强大的DINOv3特征提取能力和灵活的随机森林分类器,我们实现了一个既简单又有效的目标检测系统。希望这篇文章能够帮助读者理解并应用DINOv3进行实际的目标检测任务。
为什么现在要关注DINOv3 首先是训练数据的规模优势。 Token结构和特征图处理 DINOv3的输出结构是[CLS] + 4个register token + patch grid。 实际应用场景 DINOv3最适合的场景是那些需要"零微调"的应用。 据他们的报告,DINOv3基本上是开箱即用的,而且在不同传感器之间的泛化能力很强。 这才是DINOv3真正超模的地方。 喜欢就关注一下吧: 点个 在看 你最好看!
图:DINOv3在4096×4096超高分辨率下的特征表现。 通过PCA将特征映射为RGB,清晰展示了模型对细节的精准捕捉能力 一、数据说话:DINOv3的硬核实力 "无需人工标注,仅通过观察世界就能理解万物"——这不是科幻小说,而是Meta最新发布的DINOv3 二、技术揭秘:DINOv3的三大核心突破 1. 智能数据引擎:从170亿图像中提炼精华 DINOv3团队面临的首要挑战:如何从海量无序图像中提取有效信息? 五、真实挑战:DINOv3的局限性 尽管DINOv3表现出色,但了解其局限性同样重要: 1. 六、实践指南:如何开始使用DINOv3 1.
一、执行摘要:一分钟看懂DINOv3它是什么?DINOv3是Meta开源的一个自监督视觉骨干网络家族。它能产生强大的、密集的特征表示,直接用于图像分类、目标检测、语义分割和深度估计等任务。为什么重要? DINOv3正极大地拓展这片“无标签”的疆域。 三、实力说话:DINOv3基准测试表现DINOv3的核心主张非常强硬:一个单一的冻结骨干网络,在密集预测任务(如语义分割、目标检测、深度估计)上可以匹配甚至击败许多专门的解决方案,并且大幅超越了之前的自监督基线模型 四、DINOv3解锁的多模态能力DINOv3 primarily是一个视觉骨干网络,但其强大的密集特征使其成为连接多种模态和下游能力的天然桥梁。 添加图片注释,不超过 140 字(可选)▲ 冻结的DINOv3产生密集特征,可输入多种任务适配器五、按需取用:蒸馏模型与实战部署变体Meta发布了一系列DINOv3骨干网络(包括ConvNeXt和ViT
前不久,Meta 发布的 DINOv3 让我们见识了视觉基础模型的强大能力。而就在大家还沉浸于 DINOv3 的震撼时,中山大学的研究团队顺势出手,提出了一个新框架——AD-DINOv3。 这不仅仅是“把 DINOv3 用起来”那么简单,而是一次针对异常检测场景的精心设计。为什么异常检测这么难? DINOv3 的登场在这个节点上,DINOv3(Meta 提出的超大规模自监督视觉模型)出现了。它通过对大量自然图像的训练,学到了非常强的通用视觉特征。 中山大学的思路:AD-DINOv3于是,中山大学的研究团队提出了AD-DINOv3,一个把 DINOv3 真正带入 ZSAD 的框架。 仅用 DINOv3 特征:AUROC 只有 76.2%,F1 只有 20.49%。+ CMCL:AUROC 飙升到 90.98%,说明跨模态对齐是关键。
这个由Intellindust AI Lab和厦门大学联合推出的实时检测器家族,将实时 DETR 与视觉基础模型DINOv3相结合。 技术突破:当DINOv3遇上实时检测DEIMv2的核心创新在于解决了基础模型与实时检测任务之间的适配难题。 空间调优适配器:巧妙的桥梁设计DINOv3作为当前最强大的视觉基础模型,语义理解能力出色,但其单尺度输出特性与目标检测所需的多尺度特征存在矛盾。 这个设计既保留了DINOv3的强大能力,又补充了检测必需的细节信息,堪称工程上的巧思。 特别值得注意的是,DEIMv2在中大型物体检测上表现尤为突出,证明了DINOv3强大语义能力与STA模块的有效性。
开创性地将DINOv3适配于零样本异常检测(ZSAD)任务论文首次将DINOv3这一强大的自监督视觉基础模型作为视觉主干网络(visual backbone)引入到零样本异常检测(Zero-Shot Anomaly 近期,DINOv3等视觉基础模型展现出强大的可迁移表征能力。 相比之下,像DINOv3[35]这样的自监督视觉编码器在该任务中尚未得到充分探索。 图1展示了原始DINOv3与我们提出的AD-DINOv3之间的差异。 这推动研究者探索更强的视觉骨干网络DINOv3,并开发专用于异常检测的自适应提示学习机制。
与 SAM3,总结令牌匹配 SigLIP2 与 DINOv3。 实践中,DINOv3 常在总结项中压制 SigLIP2。C-RADIOv4 以角度归一化损失替代原有方案。学生与教师嵌入间的夹角平方值,除以该教师自身的角分散度。 在 k-NN 分类任务中,C-RADIOv4-H 相较 RADIOv2.5 与 C-RADIOv3 均有提升,并在约 256 px 起与 DINOv3 相当或更优。 DINOv3 在 192–256 px 达到峰值后性能下降,而 C-RADIOv4 在高分辨率下仍保持稳定或持续提升。密集与 3D 感知指标呈现出预期的权衡效果。 均衡多教师蒸馏:角度归一化的总结损失平衡了 SigLIP2 与 DINOv3 的贡献,同时保留了对齐文本与密集表征的质量。
本文直接在高维 VFM (DINOv3) 特征空间上训练骨干网络,使用方程 (2) 中定义的流匹配目标函数。 本文观察到从 DINOv3 特征重建图像时存在明显的与分辨率相关的行为,如下图3所示。虽然低分辨率输入的重建在精细结构上存在退化,但高分辨率输入会产生明显更详细和忠实的结果。 这表明 DINOv3 表示本质上能够有效地在高分辨率下保留详细的视觉线索。至关重要的是,这种能力表明 DINOv3 编码器本身足以进行高分辨率重建,从而无需辅助残差编码器。 它们的跨分辨率余弦相似度接近 1.0,而 DINOv3 和 DINOv2 特征则变化更大。这一观察结果表明,VFM 派生特征在不同尺度上经历了不可忽略的偏移。 然而,在研究过程中,本文也发现了一个关键挑战:现有 VFM 编码器(例如 DINOv2 和 DINOv3)在以不同输入分辨率编码相同图像时,会产生内部一致性较差的表示。
在追求模型规模的竞赛中,一个反直觉的事实正在发生:NVIDIA 的 C-RADIOv4 仅用 6.31 亿个参数就达到了 DINOv3 的 70 亿参数模型的性能。 这次,它请来的老师阵容堪称豪华:文本理解高手 SigLIP2、自监督学习标杆 DINOv3,以及那个能“分割万物”的 SAM3。三位老师,三种绝活,而 C-RADIOv4 要做的,就是融会贯通。 SigLIP2 带来了更精准的图文对齐能力,DINOv3 在语义理解和密集预测上几乎做到了极致。 DINOv3 这样的老师,个性强烈,输出的特征分布范围很广;而 SigLIP2 则相对内敛。如果不加调节,学生很容易被声音大的老师吸引,而忽略了其他。为此,团队重新设计了“平衡摘要损失”。
HUVR会跟随一个强大的预训练“教师”模型(如DINOv3)学习。通过蒸馏损失函数,HUVR编码器和解码器的输出特征会模仿教师模型的对应特征,从而获得高级语义理解能力。 相比之下,将强大的DINOv3特征用PCA暴力降到8维,准确率仅有16.1%。当维度放宽到32维,HUVR的准确率飙升至79.4%,这已经接近甚至超过了很多早期轻量化模型的完整性能。 在多项任务中达到SOTA水平除了压缩空间中的惊人表现,HUVR在标准维度下的性能也足以与业界顶尖模型媲美:在ImageNet-1k分类任务上,ViT-B尺寸的HUVR取得了85.0%的Top-1准确率,略高于DINOv3 在ADE20K语义分割任务上,HUVR以52.0 mIoU的成绩击败了DINOv3的50.8 mIoU。在NYUv2深度估计任务上,也取得了更低的误差。
本次更新不仅加入了8个重要的新模型,包括计算机视觉领域的DINOv3和SAM 2,音频处理领域的X-Codec,多模态模型Kosmos 2.5、Ovis 2等,还带来了缓存系统重构、量化支持增强、训练推理优化等多项改进 DINOv3:视觉基础模型新标杆 DINOv3是一种无需微调即可在各种视觉任务上超越专业最新技术的通用视觉基础模型。 DINOv3的核心优势在于其强大的泛化能力,这使得它在分类、分割、检测等任务上都能取得令人印象深刻的表现,而无需针对特定任务进行微调。 2.
该框架不仅引入DINOv3补充细粒度视觉特征,更通过一种创新的“语义-视觉协同”机制,使提示词(Prompt)不再是静态文本,而是能根据图像内容动态生成的“灵动指令”。 层级语义-视觉协同模块(HSVS)该模块引入DINOv3作为“视觉专家”,与CLIP的语义特征进行深度融合。
层次化的编码与预测架构 在训练阶段,模型主要由四部分交织而成: 视觉编码器 :使用预训练且冻结的 ViT 权重(如 DINOv2 或 DINOv3)来提取空间特征,确保模型具备敏锐的视觉感知力。 在视觉复杂度更高的真实数据(DROID)中,DINOv3 的优势进一步扩大。 动作调节技术的微妙差异:实验发现 AdaLN(自适应层归一化)调节技术在平均性能上表现最强,且计算效率更高。 提出的最优解 研究最终汇总所有洞察,提出了针对不同任务的最优配置:在模拟器中使用 ViT-S 配以 AdaLN,而在真实复杂场景中使用 DINOv3 ViT-L 配以 12 层深度的预测器。
2.1 双编码器结构FoundAD使用两个结构完全相同的冻结基础视觉编码器(论文中最优配置为DINOv3 ViT-B):异常感知编码器:接收可能包含异常的输入图像,提取其patch级别的特征表示。 CLIP的I-AUROC仅为79.0%,远低于DINOv3的96.1%。论文指出CLIP缺乏像素级信息,在细粒度异常定位上表现较弱,而纯视觉自监督训练反而更有利于捕捉异常模式。 第二,编码器的性能随预训练规模和方法的演进而稳步提升(DINO→DINOv2→DINOv3),验证了FoundAD的核心假设:更强的基础视觉编码器学习到了更精确的自然图像流形,从而实现更好的异常检测。
DINOv3 DINOv3 自监督学习(Self-supervised Learning)有望消除手动数据标注的需求,使模型能够无缝扩展到海量数据集和更大规模的架构。 本技术报告介绍了 DINOv3——通过采用简单而有效的策略实现该愿景的重要里程碑。首先,我们通过精细的数据准备、方案设计和优化流程,充分发挥数据集与模型规模扩展的优势。 DINOv3 生成的高质量密集特征在各种视觉任务中均表现出卓越性能,显著超越了先前基于自监督和弱监督学习(Weakly-supervised Learning)的基础模型。 我们还开源了 DINOv3 视觉模型套件,通过为不同资源约束和部署场景提供可扩展解决方案,推动各类任务和数据领域的尖端技术发展。
从下图可以看到,在各种模型规模(SiT-XL/2, SiT-B/2)和编码器(DINOv3, WebSSL, CLIP 等)下,iREPA 都显著提高了收敛速度 。 同时,对于 DINOv3 和 WebSSL 等目前最强的特征提取器,iREPA 依然能进一步压低 FID,提升生成上限。
这种方法虽然有效,但存在明显缺陷:复杂的提示工程:为了让模型理解什么是“异常”,研究者需要精心设计文本提示,这本身就成为一门“玄学”模型通用性受限:方法被“锁死”在视觉-语言模型上,无法利用DINOv2、DINOv3
团队使用冻结的DINOv3编码器,从海量真实图像中提取Patch级别特征,并引入由正交原型组成的离散记忆库。这些原型如同现实世界的“基础砖块”,代表各种稳定的纹理和语义模式。
代表模型包括DINOv3、MoCo v4、SimCLR v3等。 多模态特征学习:通过同时处理图像和文本等多种模态的数据,能够学习到更丰富、更通用的特征表示。 模型名称 开发者 主要特点 应用场景 DINOv3 Facebook AI Research 基于自监督学习的通用图像特征提取模型 图像检索、分类、目标检测等 CLIP v3 OpenAI 多模态预训练模型 在实际项目中应用这些技术 参考 来源 描述 Huggingface Model Hub 计算机视觉模型库 arXiv论文 计算机视觉技术的最新研究成果 Facebook AI Research Blog DINOv3