首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AVA-DINO 零样本学习异常,泛化能力碾压现有方法

AVA-DINO 零样本学习异常,泛化能力碾压现有方法

作者头像
OpenCV学堂
发布2026-06-03 20:30:49
发布2026-06-03 20:30:49
970
举报

概述

在工业质量检测、医学图像分析等领域,异常检测任务通常面临以下挑战:

代码语言:javascript
复制
异常样本稀缺且多样:
实际生产中缺陷类型难以穷举,收集大量标注异常样本不现实。

目标域不可见:
训练时未见过的目标类别,要求模型具备零样本(Zero-Shot) 泛化能力。

现有的零样本异常检测(ZSAD)方法大多采用统一的特征变换,对正常样本和异常样本使用相同的处理方式。然而,正常样本具有紧凑、结构一致的分布特性,而异常样本则呈现多样、稀疏、边界不规则的分布特性。这种内在不对称性要求模型能够区分处理,而非统一适应。

关键创新

1 .双分支异常感知适配器

设计两个独立的轻量级适配器模块:

代码语言:javascript
复制
正常适配器(Normal Adapter):
学习强调结构一致性、纹理稳定的特征变换。

异常适配器(Anomaly Adapter):
学习放大偏差、突出缺陷边界的特征变换。

适配器作用于冻结的 DINOv3 视觉特征上,不更新主干网络。

2 文本引导的动态路由机制

使用冻结的 CLIP 文本编码器生成正常提示(如“a photo of perfect hazelnut”)和异常提示(如“a photo of damaged hazelnut”)的嵌入。

将 DINOv3 的 CLS 令牌与投影后的文本嵌入计算余弦相似度,通过温度缩放的 Softmax 生成路由权重

3 路由正则化损失

训练阶段引入显式正则化损失

其中 y∈{0,1}为异常标签。

该损失强制正常样本主要激活正常适配器,异常样本激活异常适配器,避免路由退化

4 多层级特征融合

利用 DINOv3 的多层特征(不仅最后一层),结合细粒度与语义信息,提升像素级定位能力

模型架构

编码模块:冻结的 DINOv3 Vision Transformer 提取图像的多尺度 patch 特征和 CLS 全局特征。

代码语言:javascript
复制
双分支适配模块:
patch 特征分别通过正常适配器和异常适配器。

文本引导路由模块:
CLIP 文本嵌入与 CLS 特征计算路由权重。

加权融合模块:
按权重组合两个分支的输出,并添加残差连接

模型参数与细节选择

代码语言:javascript
复制
视觉编码器:DINOv3-ViT-L/16(冻结)
文本编码器:CLIP-ViT-L/14-336(冻结)
适配器参数:28M 可训练参数,瓶颈维度 256,4 层 LeakyReLU
优化器:AdamW,学习率 1e-4,batch size 64,20 轮
图像分辨率:512×512

实验数据与结论

代码语言:javascript
复制
工业数据集:
MVTec-AD、ViSA、BTAD、KSDD2、MPDD、MVTec-AD2

医学数据集:
Kvasir、CVC-ColonDB、CVC-ClinicDB

采用标准零样本协议:训练集与测试集类别完全无重叠;医学数据集完全来自工业训练,测试跨域泛化能力。

消融实验证明

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档