首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏贾志刚-OpenCV学堂

    DINOv3视觉基础大模型正式发布!

    Meta 宣布发布 DINOv3,这是一个前沿的自监督视觉基础模型,在广泛的计算机视觉任务中实现了前所未有的性能。 随着 DINOv3 的发布,我们在密集任务上显著超过了弱监督模型,通过最佳类别的 WSL 模型的相对性能来展示(b)。 我们还使用在自然图像(c)和航拍图像(d)上训练的 DINOv3 生成了特征的 PCA 图。 DINOv3 通过采用全面的模型套件来扩展自监督学习的应用范围,以满足不同的用例需求。 DINOv3 集成了架构创新,特别采用了 Gram anchoring 来解决密集特征图退化问题,以及轴向 RoPE 结合抖动的方法来提高在不同图像分辨率和宽高比下的鲁棒性。 DINOv3模型家族 通过 DINOv3,我们显著改善了密集特征图的退化问题,这要归功于 Gram anchoring。随着 SSL 导致的训练模型规模扩大,结果是显着的性能提升。

    81710编辑于 2026-04-02
  • 来自专栏云上修行

    DINOv3目标检测入门实战:基于血细胞分类的完整实现

    本文将详细介绍如何使用DINOv3进行目标检测任务,以血细胞分类为例,展示从数据准备到模型训练再到推理部署的完整流程。1. """血细胞分类训练脚本 - 使用DINOv3特征 + 随机森林分类器这种方法更简单直接,通常在小数据集上效果更好DINOv3 使用 patch_size=16,**要求输入图像尺寸必须是 16 的倍数 模型: dinov3_vits16 使用本地仓库: /data/william/Workspace/dinov3DINOv3模型加载完成 提取train集特征...处理train集: 100%|██ 模型: dinov3_vits16 使用本地仓库: /data/william/Workspace/dinov3DINOv3模型加载完成模式: 使用标注框进行分类图像: BCCD_Dataset/BCCD 通过结合强大的DINOv3特征提取能力和灵活的随机森林分类器,我们实现了一个既简单又有效的目标检测系统。希望这篇文章能够帮助读者理解并应用DINOv3进行实际的目标检测任务。

    2.7K33编辑于 2025-10-23
  • 来自专栏DeepHub IMBA

    DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计

    为什么现在要关注DINOv3 首先是训练数据的规模优势。 Token结构和特征图处理 DINOv3的输出结构是[CLS] + 4个register token + patch grid。 实际应用场景 DINOv3最适合的场景是那些需要"零微调"的应用。 据他们的报告,DINOv3基本上是开箱即用的,而且在不同传感器之间的泛化能力很强。 这才是DINOv3真正超模的地方。 喜欢就关注一下吧: 点个 在看 你最好看!

    2.2K10编辑于 2025-11-15
  • 来自专栏贾志刚-OpenCV学堂

    AD-DINOv3 | 异常感知校验的零样本检测

    提出了AD-DINOv3,这是首个将DINOv3适配于零样本异常检测的框架,填补了自监督视觉编码器与异常检测任务之间的空白。 引入了一种带有轻量级适配器的跨模态对比学习策略,以充分利用DINOv3的层次化表征进行零样本异常检测。 架构与方法 我们采用DINOv3作为AD-DINOv3的视觉主干网络。如图2所示,图像分支会提取图像块标记和一个CLS标记,这些标记通过轻量级适配器与异常感知校准模块共同进行优化处理。 实现细节 在我们的实验中,默认采用Meta AI发布的ViT-L/16架构预训练DINOv3作为图像编码器,同时使用预训练CLIP(OpenAI)的文本编码器生成文本嵌入。 DINOv3主干网络包含24个Transformer层,我们将其划分为四个阶段,分别从第6、12、18和24层提取图像块嵌入。

    27710编辑于 2026-04-02
  • 来自专栏AI智韵

    DINOv3:无需标注的视觉革命,如何用16.89亿图像重塑AI未来

    图:DINOv3在4096×4096超高分辨率下的特征表现。 通过PCA将特征映射为RGB,清晰展示了模型对细节的精准捕捉能力 一、数据说话:DINOv3的硬核实力 "无需人工标注,仅通过观察世界就能理解万物"——这不是科幻小说,而是Meta最新发布的DINOv3 二、技术揭秘:DINOv3的三大核心突破 1. 智能数据引擎:从170亿图像中提炼精华 DINOv3团队面临的首要挑战:如何从海量无序图像中提取有效信息? 五、真实挑战:DINOv3的局限性 尽管DINOv3表现出色,但了解其局限性同样重要: 1. 六、实践指南:如何开始使用DINOv3 1.

    2.6K10编辑于 2025-09-11
  • 来自专栏贾志刚-OpenCV学堂

    DINOv3 ViT | 新一代视觉基础模型 架构与应用综述

    DINOv3 ViT 架构 DINOv3 ViT 是一个自监督Transformer模型,可为广泛应用生成稳定、可迁移的密集视觉特征图。 DINOv3 ViT 是在自监督学习范式下开发的一系列视觉Transformer模型,旨在为各种下游任务生成鲁棒、可迁移的密集视觉特征。 消融研究证实了 DINOv3 特征和差分解码的主要贡献。 零样本工业缺陷检测 基于DINOv3实现的AVA-DINO 零样本学习异常,泛化能力碾压现有方法。基于DINOv3各层的特征输出采样构建的零样本工业缺陷检测应用已经呈现井喷爆发趋势。 未来探索: 更大的 DINOv3 变体、特定领域的自监督预训练、更高秩的适配以及进一步的多模态对齐,被认为是扩展其应用前景的有希望的方向 DINOv3 ViT 为视觉基础模型在空间和密集任务上树立了新的参考标准

    25210编辑于 2026-06-24
  • 标注成本骤降,DINOv3炸裂发布!冻结 backbone 即拿即用,性能对标SOTA

    一、执行摘要:一分钟看懂DINOv3它是什么?DINOv3是Meta开源的一个自监督视觉骨干网络家族。它能产生强大的、密集的特征表示,直接用于图像分类、目标检测、语义分割和深度估计等任务。为什么重要? DINOv3正极大地拓展这片“无标签”的疆域。 三、实力说话:DINOv3基准测试表现DINOv3的核心主张非常强硬:一个单一的冻结骨干网络,在密集预测任务(如语义分割、目标检测、深度估计)上可以匹配甚至击败许多专门的解决方案,并且大幅超越了之前的自监督基线模型 四、DINOv3解锁的多模态能力DINOv3 primarily是一个视觉骨干网络,但其强大的密集特征使其成为连接多种模态和下游能力的天然桥梁。 添加图片注释,不超过 140 字(可选)▲ 冻结的DINOv3产生密集特征,可输入多种任务适配器五、按需取用:蒸馏模型与实战部署变体Meta发布了一系列DINOv3骨干网络(包括ConvNeXt和ViT

    3.1K20编辑于 2025-08-21
  • 来自专栏贾志刚-OpenCV学堂

    DINOv3如何成为冻结即可用的通用视觉之王

    每一代模型不仅仅是性能的提升,更是从根本上改变了我们对“利用无标签数据能实现什么”的认知 DINOv3的不同之处 DINOv3的论文指出,DINOv3 能够生成丰富、密集的特征,且只需保持骨干网络冻结( DINOv2到DINOv3的架构演化 模型参数规模扩大 DINOv3 的规模是其前身的 6 倍,参数量从 11 亿跃升至 67 亿——这一跨越在保持同样 40 层深度的同时,实现了更丰富的表征学习能力。 DINOv3的不同之处 DINOv3 将图像自监督学习推向新高度,打造出通用的视觉骨干网络,在多个不同领域均取得了绝对的当前最佳性能(state-of-the-art),涵盖目标检测、深度估计、图像分割 DINOv3 的研究人员通过仔细分析图像块特征相似度图,定位了核心问题。 完全冻结DINOv3骨干网络,添加头部分,在各个视觉任务上表现如下:

    800编辑于 2026-07-03
  • EUPE + YOLO26:轻量化工业检测新思路

    之前的 DINOv3 + YOLO26 方案解决了一部分问题。但今天想聊聊另一个选择:EUPE + YOLO26。 语义特征更强 DINOv3 是纯自监督,特征空间偏向几何/纹理。但工业缺陷检测有时候需要语义理解——比如判断"这是划痕还是压痕",纯几何特征有时候不够用。 小模型就能用 DINOv3 想达到好效果,通常需要 ViT-B (86M)。但 EUPE-ViT-S (21M) 就能接近 ViT-B 的精度。 这意味着什么? 如果以后想加个缺陷分类头,不需要双模型,共享同一个 backbone 就行: 整体框架 和 DINOv3 + YOLO26 一样的思路: 区别只在特征提取层。 如果你的场景纯粹是大图小目标检测且数据量充足,DINOv3 依然是个好选择。 可以在实际数据上做个对比实验,再决定用哪个。

    46210编辑于 2026-04-28
  • 工业缺陷检测新范式:VisualAD + DINOv3 实现「训练一次,检测万物」

    工业缺陷检测新范式:VisualAD + DINOv3 实现「训练一次,检测万物」 本文基于 CVPR 2026 VisualAD 与 Meta DINOv3,从零实现端到端异常检测。 适配:本文的核心工程贡献 官方 VisualAD 基于 CLIP ViT,本文迁移到 DINOv3,踩坑不少: ① 架构差异 特性 CLIP ViT DINOv3 (Eva) 位置编码 固定可学习 RoPE ② 为什么 DINOv3 更适合工业检测? CLIP 是图文对齐模型,特征受语言语义牵引;DINOv3 是纯视觉自监督,特征更聚焦图像本身的视觉结构。 DINOv3 的判别间距是 CLIP 的 2 倍。 ③ 输入尺寸陷阱 DINOv3 patch16 要求输入为 16 的倍数。官方常用 518(14 的倍数),需改为 512。不改的话模型能跑,但精度掉档。

    41810编辑于 2026-05-20
  • DINOv3 也能抓异常?看 AD-DINOv3 如何精准发现微小缺陷(附源代码地址)

    前不久,Meta 发布的 DINOv3 让我们见识了视觉基础模型的强大能力。而就在大家还沉浸于 DINOv3 的震撼时,中山大学的研究团队顺势出手,提出了一个新框架——AD-DINOv3。 这不仅仅是“把 DINOv3 用起来”那么简单,而是一次针对异常检测场景的精心设计。为什么异常检测这么难? DINOv3 的登场在这个节点上,DINOv3(Meta 提出的超大规模自监督视觉模型)出现了。它通过对大量自然图像的训练,学到了非常强的通用视觉特征。 中山大学的思路:AD-DINOv3于是,中山大学的研究团队提出了AD-DINOv3,一个把 DINOv3 真正带入 ZSAD 的框架。 仅用 DINOv3 特征:AUROC 只有 76.2%,F1 只有 20.49%。+ CMCL:AUROC 飙升到 90.98%,说明跨模态对齐是关键。

    1.7K20编辑于 2025-09-23
  • 来自专栏福大大架构师每日一题

    ComfyUI v0.24.0更新全解析:Ideogram 4正式接入,DINOv3与BiRefNet精度修复,MultiGPU中断卡死问题解决,工作流模板同步升级

    二是 CLIP Vision 中移除了 DINOv3 的 fp16 特判逻辑 变更文件:comfy/clip_vision.py 这部分代码删除了 torch 依赖引入,同时删除了 DINOv3 在 float16 原逻辑大意是: 如果模型类型是 dinov3,且 dtype 为 float16,那么因为 DINOv3 的 activation 在 fp16 下比较勉强,所以如果设备支持 bf16,就优先改成 bf16 ,可以明确看出:v0.24.0 对 DINOv3 的重点就是稳定性优先,减少不必要的半精度风险和隐式类型切换。 2. tripo dinov3 推理改为 fp32 这与前面 dino3 的代码修复形成闭环。说明在 tripo 相关推理场景中,DINOv3 已经明确采用 fp32 执行。 BiRefNet、DINOv3、Tripo DINOv3、Radiance 都涉及实际推理输入、dtype、位置标识或执行精度问题,这些都不是表面改动,而是直接关系到模型能否稳定跑通的底层因素。

    38810编辑于 2026-06-08
  • MAE + YOLO26:掩码重建自监督的新选择

    MAE + YOLO26:掩码重建自监督的新选择 DINOv3 和 EUPE 都是基于对比学习的自监督方法。 学到了强大的视觉表征: 模型 参数量 ImageNet Top-1 MAE ViT-B 86M 87.8% MAE ViT-L 300M 89.0% MAE ViT-H 600M 89.1% 对比一下 DINOv3 预训练权重更容易获取 DINOv3 的预训练权重需要向 Meta AI 申请,文件大(330MB),流程麻烦。 mosaic: 0.8 mixup: 0.1 和 DINOv3 的对比实验 MAE 和 DINO 到底哪个更适合你的工业检测任务? 三种自监督范式总结 结语 MAE + YOLO26 不是一个「替代」DINOv3 或 EUPE 的方案,而是第三种选择。

    16810编辑于 2026-05-08
  • DETR携手DINOv3全面超越YOLO,8款模型全部开源(附下载地址)

    这个由Intellindust AI Lab和厦门大学联合推出的实时检测器家族,将实时 DETR 与视觉基础模型DINOv3相结合。 技术突破:当DINOv3遇上实时检测DEIMv2的核心创新在于解决了基础模型与实时检测任务之间的适配难题。 空间调优适配器:巧妙的桥梁设计DINOv3作为当前最强大的视觉基础模型,语义理解能力出色,但其单尺度输出特性与目标检测所需的多尺度特征存在矛盾。 这个设计既保留了DINOv3的强大能力,又补充了检测必需的细节信息,堪称工程上的巧思。 特别值得注意的是,DEIMv2在中大型物体检测上表现尤为突出,证明了DINOv3强大语义能力与STA模块的有效性。

    3.1K30编辑于 2025-09-30
  • 来自专栏贾志刚-OpenCV学堂

    AVA-DINO 零样本学习异常,泛化能力碾压现有方法

    适配器作用于冻结的 DINOv3 视觉特征上,不更新主干网络。 将 DINOv3 的 CLS 令牌与投影后的文本嵌入计算余弦相似度,通过温度缩放的 Softmax 生成路由权重 3 路由正则化损失 训练阶段引入显式正则化损失 其中 y∈{0,1}为异常标签。 该损失强制正常样本主要激活正常适配器,异常样本激活异常适配器,避免路由退化 4 多层级特征融合 利用 DINOv3 的多层特征(不仅最后一层),结合细粒度与语义信息,提升像素级定位能力 模型架构 编码模块 :冻结的 DINOv3 Vision Transformer 提取图像的多尺度 patch 特征和 CLS 全局特征。

    24910编辑于 2026-06-03
  • 来自专栏YOLO大作战

    AD-DINOv3:通过异常感知校准增强DINOv3的零样本异常检测能力

    开创性地将DINOv3适配于零样本异常检测(ZSAD)任务论文首次将DINOv3这一强大的自监督视觉基础模型作为视觉主干网络(visual backbone)引入到零样本异常检测(Zero-Shot Anomaly 近期,DINOv3等视觉基础模型展现出强大的可迁移表征能力。 相比之下,像DINOv3[35]这样的自监督视觉编码器在该任务中尚未得到充分探索。 图1展示了原始DINOv3与我们提出的AD-DINOv3之间的差异。 这推动研究者探索更强的视觉骨干网络DINOv3,并开发专用于异常检测的自适应提示学习机制。

    1.4K10编辑于 2025-11-19
  • 一种大图小目标检测的思路:DINOv3预训练特征 + YOLO26检测头

    一种大图小目标检测的思路:DINOv3预训练特征 + YOLO26检测头 最近在梳理项目,顺手把 DINOv3 和 YOLO26 结合这套方案的做法整理一下。 DINOv3 的特征质量给这种方案提供了新的选择。 整体框架 核心思路就三步:提特征 → 多尺度化 → 检测输出。 关于DINOv3的特征 DINOv3是Meta在2025年放出来的自监督模型,用的是ViT架构。它在LVD-1689M这个大规模数据集上训练过,这个规模大概是之前一些方案的几十倍。 多中间层输出 DINOv3的 get_intermediate_layers 可以取多层输出。不是所有层都同等重要——浅层保留更多底层信息,深层偏语义。 多尺度Neck怎么做的 DINOv3输出的是单尺度 40×40 特征图(640输入的情况下),但YOLO检测需要 P3/P4/P5 三个尺度。

    1.1K30编辑于 2026-04-28
  • C-RADIOv4:统一三大模型的视觉骨干技术

    与 SAM3,总结令牌匹配 SigLIP2 与 DINOv3。 实践中,DINOv3 常在总结项中压制 SigLIP2。C-RADIOv4 以角度归一化损失替代原有方案。学生与教师嵌入间的夹角平方值,除以该教师自身的角分散度。 在 k-NN 分类任务中,C-RADIOv4-H 相较 RADIOv2.5 与 C-RADIOv3 均有提升,并在约 256 px 起与 DINOv3 相当或更优。 DINOv3 在 192–256 px 达到峰值后性能下降,而 C-RADIOv4 在高分辨率下仍保持稳定或持续提升。密集与 3D 感知指标呈现出预期的权衡效果。 均衡多教师蒸馏:角度归一化的总结损失平衡了 SigLIP2 与 DINOv3 的贡献,同时保留了对齐文本与密集表征的质量。

    53010编辑于 2026-02-12
  • 参数仅6.31亿反超7B模型,NVIDIA用「多教师蒸馏」融合三大模型绝学

    在追求模型规模的竞赛中,一个反直觉的事实正在发生:NVIDIA 的 C-RADIOv4 仅用 6.31 亿个参数就达到了 DINOv3 的 70 亿参数模型的性能。 这次,它请来的老师阵容堪称豪华:文本理解高手 SigLIP2、自监督学习标杆 DINOv3,以及那个能“分割万物”的 SAM3。三位老师,三种绝活,而 C-RADIOv4 要做的,就是融会贯通。 SigLIP2 带来了更精准的图文对齐能力,DINOv3 在语义理解和密集预测上几乎做到了极致。 DINOv3 这样的老师,个性强烈,输出的特征分布范围很广;而 SigLIP2 则相对内敛。如果不加调节,学生很容易被声音大的老师吸引,而忽略了其他。为此,团队重新设计了“平衡摘要损失”。

    43510编辑于 2026-02-05
  • 字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!

    HUVR会跟随一个强大的预训练“教师”模型(如DINOv3)学习。通过蒸馏损失函数,HUVR编码器和解码器的输出特征会模仿教师模型的对应特征,从而获得高级语义理解能力。 相比之下,将强大的DINOv3特征用PCA暴力降到8维,准确率仅有16.1%。当维度放宽到32维,HUVR的准确率飙升至79.4%,这已经接近甚至超过了很多早期轻量化模型的完整性能。 在多项任务中达到SOTA水平除了压缩空间中的惊人表现,HUVR在标准维度下的性能也足以与业界顶尖模型媲美:在ImageNet-1k分类任务上,ViT-B尺寸的HUVR取得了85.0%的Top-1准确率,略高于DINOv3 在ADE20K语义分割任务上,HUVR以52.0 mIoU的成绩击败了DINOv3的50.8 mIoU。在NYUv2深度估计任务上,也取得了更低的误差。

    38510编辑于 2026-01-29
领券