
概述
工业产品缺陷检测中,异常样本稀缺且标注困难。零样本异常检测(ZSAD)旨在不依赖目标类别异常样本的情况下完成检测任务。然而,现有方法面临三大痛点:文本提示语义模糊、跨模态交互不足、SAM分割依赖低质量提示。
关键改进
DCS框架整合了Grounding DINO、CLIP和SAM三个基础模型,提出三项关键改进

1. FinePrompt:细粒度文本提示
利用大语言模型为每个类别生成多样化的缺陷描述(如“划痕”“破损”“污渍”),并结合可学习的文本嵌入和自适应权重机制。模型会根据图像内容自动为匹配的描述赋予更高权重,有效缓解语义歧义。
2. ADCI:自适应双路径跨模态交互
设计了两条互补路径:
两条路径经门控机制自适应融合,显著提升CLIP粗分割的准确性。
3. BPPC:框点提示组合器
三者组合输入SAM,引导其生成更精细、完整的异常分割结果
实验效果
在MVTec-AD和VisA数据集上,DCS在AUROC、F1-max、AP三项指标上均达到最优。例如在MVTec-AD上,相比CLIP-SAM方法,AUROC提升21.4%,充分验证了框架的有效性。


结论
个人认为该方法的优势,基于本文 + Box + Point的组合提示,对缺陷位置分割更加精细,可以自动分类缺陷类别。但是 串联Grounding DINO、CLIP、SAM三个大模型,不适合实时场景。
计算开销大,主要瓶颈在Grounding DINO的候选框生成和SAM ViT-H的掩码解码。同时方法基于CLIP、SAM、DINO预训练模型的基础能力,三者任一短板都会影响整体。