AVA-DINO 零样本学习异常，泛化能力碾压现有方法

OpenCV学堂

发布于 2026-06-03 20:30:49

970

概述

在工业质量检测、医学图像分析等领域，异常检测任务通常面临以下挑战：

异常样本稀缺且多样：
实际生产中缺陷类型难以穷举，收集大量标注异常样本不现实。

目标域不可见：
训练时未见过的目标类别，要求模型具备零样本（Zero-Shot） 泛化能力。

现有的零样本异常检测（ZSAD）方法大多采用统一的特征变换，对正常样本和异常样本使用相同的处理方式。然而，正常样本具有紧凑、结构一致的分布特性，而异常样本则呈现多样、稀疏、边界不规则的分布特性。这种内在不对称性要求模型能够区分处理，而非统一适应。

关键创新

1 .双分支异常感知适配器

设计两个独立的轻量级适配器模块：

正常适配器（Normal Adapter）：
学习强调结构一致性、纹理稳定的特征变换。

异常适配器（Anomaly Adapter）：
学习放大偏差、突出缺陷边界的特征变换。

适配器作用于冻结的 DINOv3 视觉特征上，不更新主干网络。

2 文本引导的动态路由机制

使用冻结的 CLIP 文本编码器生成正常提示（如“a photo of perfect hazelnut”）和异常提示（如“a photo of damaged hazelnut”）的嵌入。

将 DINOv3 的 CLS 令牌与投影后的文本嵌入计算余弦相似度，通过温度缩放的 Softmax 生成路由权重

3 路由正则化损失

训练阶段引入显式正则化损失

其中 y∈{0,1}为异常标签。

该损失强制正常样本主要激活正常适配器，异常样本激活异常适配器，避免路由退化

4 多层级特征融合

利用 DINOv3 的多层特征（不仅最后一层），结合细粒度与语义信息，提升像素级定位能力

模型架构

编码模块：冻结的 DINOv3 Vision Transformer 提取图像的多尺度 patch 特征和 CLS 全局特征。

双分支适配模块：
patch 特征分别通过正常适配器和异常适配器。

文本引导路由模块：
CLIP 文本嵌入与 CLS 特征计算路由权重。

加权融合模块：
按权重组合两个分支的输出，并添加残差连接

模型参数与细节选择

视觉编码器：DINOv3-ViT-L/16（冻结）
文本编码器：CLIP-ViT-L/14-336（冻结）
适配器参数：28M 可训练参数，瓶颈维度 256，4 层 LeakyReLU
优化器：AdamW，学习率 1e-4，batch size 64，20 轮
图像分辨率：512×512

实验数据与结论

工业数据集：
MVTec-AD、ViSA、BTAD、KSDD2、MPDD、MVTec-AD2

医学数据集：
Kvasir、CVC-ColonDB、CVC-ClinicDB

采用标准零样本协议：训练集与测试集类别完全无重叠；医学数据集完全来自工业训练，测试跨域泛化能力。

消融实验证明

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-03，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自 OpenCV学堂微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

AVA-DINO 零样本学习异常，泛化能力碾压现有方法

AVA-DINO 零样本学习异常，泛化能力碾压现有方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐