告别微调！DINOv3如何成为冻结即可用的通用视觉之王

OpenCV学堂

发布于 2026-07-03 19:40:56

文章被收录于专栏：贾志刚-OpenCV学堂贾志刚-OpenCV学堂

DINO系列模型概述

在深入探讨 DINOv3 的创新之前，让我们先快速梳理一下 DINO 系列的演进历程：

DINO (2021)：提出了革命性的理念，即视觉 Transformer (ViT) 可以通过自蒸馏（self-distillation）方式，在无需标签的情况下学习到有意义的表征。
DINOv2 (2023)：进一步扩大了这一方法的规模，并提升了训练的稳定性。它证明了自监督模型能够产生跨领域通用的特征，且无需微调即可直接应用。
DINOv3 (2025)：将一切推向了前所未有的规模——拥有 70亿参数，并在 17亿张训练图像上进行学习。同时，它引入了突破性技术，解决了长期存在的密集特征退化（dense feature degradation）难题。

每一代模型不仅仅是性能的提升，更是从根本上改变了我们对“利用无标签数据能实现什么”的认知

DINOv3的不同之处

DINOv3的论文指出，DINOv3 能够生成丰富、密集的特征，且只需保持骨干网络冻结（即不进行参数更新），便可直接用于微调多种复杂的下游任务。这一点非常出色——通常，我们需要对模型进行一定程度的微调，才能使其适应特定下游任务并提升性能。但 DINOv3 凭借其训练策略和架构上的改进，彻底颠覆了这一局面。它已经学会生成高质量的密集特征，这些特征可以轻松适配并应用于任何特定场景。这意味着，它真正实现了论文中所说的——“一个单一的、冻结的 SSL（自监督学习）骨干网络，即可作为通用的视觉编码器”。

DINOv2到DINOv3的架构演化

模型参数规模扩大

DINOv3 的规模是其前身的 6 倍，参数量从 11 亿跃升至 67 亿——这一跨越在保持同样 40 层深度的同时，实现了更丰富的表征学习能力。

位置编码方式改变

将可学习位置编码（learnable positional embeddings）替换为 RoPE（旋转位置嵌入，Rotary Position Embeddings）——这种现代化方法使得模型无需重新训练即可处理可变输入分辨率，支持从 256×256 到 4096×4096 像素的图像。

Patch大小变化

采用更大的图像块尺寸（从 14×14 增至 16×16 像素），通过缩短序列长度来提升计算效率；同时扩展嵌入维度（从 1536 增至 4096），以捕获更丰富的特征表征。

增强的注意力架构

更多的注意力头（从 24 个增至 32 个），且每个头的维度更大（从 64 增至 128）
前馈网络神经元节点翻倍（隐藏维度从 4096 增至 8192）

这些改进使模型能够捕获更复杂的视觉关系。

DINOv3的不同之处

DINOv3 将图像自监督学习推向新高度，打造出通用的视觉骨干网络，在多个不同领域均取得了绝对的当前最佳性能（state-of-the-art），涵盖目标检测、深度估计、图像分割、视频分类等任务。具体规模如下：

70 亿参数（相比之下，DINOv2 为 10 亿）
17 亿张训练图像（相比之下，DINOv2 为 1.42 亿）
无需微调即可跨视觉任务工作的通用骨干网络

然而，仅靠规模并不能完全解释 DINOv3 的突破性表现。真正的精髓在于其技术创新。

自监督面临的密集特征退化问题

先前的自监督模型面临一个令人困扰的问题：在训练过程中，虽然全局图像特征持续改善，但密集的图像块级（patch-level）特征实际上却随着时间推移而逐渐变差。

DINOv3 的研究人员通过仔细分析图像块特征相似度图，定位了核心问题。

其演变过程如下：

在 20 万次迭代时（训练早期）：

图像块特征干净、定位精准且具有语义意义

代表“花瓣”的图像块仅与其他花瓣图像块具有高相似度

密集预测任务可以表现优异

在 60 万次以上迭代时（训练后期）：

图像块特征变得嘈杂，并失去其局部性

原本代表“花瓣”的图像块，现在与随机的、不相关的图像块（如草地）也表现出高相似度CLS 标记与图像块特征之间的余弦相似度增加，意味着图像块失去了其局部特异性。CLS 标记应当代表全局上下文，而图像块特征则应保持其细粒度的、位置特定的特征。当图像块特征与全局表征过于相似时，它们就失去了密集预测任务所需的空间区分性。