
概述
在工业质量检测、医学图像分析等领域,异常检测任务通常面临以下挑战:
异常样本稀缺且多样:
实际生产中缺陷类型难以穷举,收集大量标注异常样本不现实。
目标域不可见:
训练时未见过的目标类别,要求模型具备零样本(Zero-Shot) 泛化能力。现有的零样本异常检测(ZSAD)方法大多采用统一的特征变换,对正常样本和异常样本使用相同的处理方式。然而,正常样本具有紧凑、结构一致的分布特性,而异常样本则呈现多样、稀疏、边界不规则的分布特性。这种内在不对称性要求模型能够区分处理,而非统一适应。
关键创新
1 .双分支异常感知适配器
设计两个独立的轻量级适配器模块:
正常适配器(Normal Adapter):
学习强调结构一致性、纹理稳定的特征变换。
异常适配器(Anomaly Adapter):
学习放大偏差、突出缺陷边界的特征变换。适配器作用于冻结的 DINOv3 视觉特征上,不更新主干网络。

2 文本引导的动态路由机制
使用冻结的 CLIP 文本编码器生成正常提示(如“a photo of perfect hazelnut”)和异常提示(如“a photo of damaged hazelnut”)的嵌入。
将 DINOv3 的 CLS 令牌与投影后的文本嵌入计算余弦相似度,通过温度缩放的 Softmax 生成路由权重

3 路由正则化损失
训练阶段引入显式正则化损失

其中 y∈{0,1}为异常标签。
该损失强制正常样本主要激活正常适配器,异常样本激活异常适配器,避免路由退化
4 多层级特征融合
利用 DINOv3 的多层特征(不仅最后一层),结合细粒度与语义信息,提升像素级定位能力
模型架构

编码模块:冻结的 DINOv3 Vision Transformer 提取图像的多尺度 patch 特征和 CLS 全局特征。
双分支适配模块:
patch 特征分别通过正常适配器和异常适配器。
文本引导路由模块:
CLIP 文本嵌入与 CLS 特征计算路由权重。
加权融合模块:
按权重组合两个分支的输出,并添加残差连接模型参数与细节选择
视觉编码器:DINOv3-ViT-L/16(冻结)
文本编码器:CLIP-ViT-L/14-336(冻结)
适配器参数:28M 可训练参数,瓶颈维度 256,4 层 LeakyReLU
优化器:AdamW,学习率 1e-4,batch size 64,20 轮
图像分辨率:512×512实验数据与结论
工业数据集:
MVTec-AD、ViSA、BTAD、KSDD2、MPDD、MVTec-AD2
医学数据集:
Kvasir、CVC-ColonDB、CVC-ClinicDB采用标准零样本协议:训练集与测试集类别完全无重叠;医学数据集完全来自工业训练,测试跨域泛化能力。


消融实验证明
