DCS：DINO-CLIP-SAM组合的零样本异常检测王炸

OpenCV学堂

发布于 2026-06-01 19:29:46

900

文章被收录于专栏：贾志刚-OpenCV学堂贾志刚-OpenCV学堂

概述

工业产品缺陷检测中，异常样本稀缺且标注困难。零样本异常检测（ZSAD）旨在不依赖目标类别异常样本的情况下完成检测任务。然而，现有方法面临三大痛点：文本提示语义模糊、跨模态交互不足、SAM分割依赖低质量提示。

关键改进

DCS框架整合了Grounding DINO、CLIP和SAM三个基础模型，提出三项关键改进

1. FinePrompt：细粒度文本提示

利用大语言模型为每个类别生成多样化的缺陷描述（如“划痕”“破损”“污渍”），并结合可学习的文本嵌入和自适应权重机制。模型会根据图像内容自动为匹配的描述赋予更高权重，有效缓解语义歧义。

2. ADCI：自适应双路径跨模态交互

设计了两条互补路径：

Strip Path：通过行/列注意力聚合，强化条状缺陷和边界的定位能力
Scale Path：通过多尺度池化，捕捉不同大小的异常区域

两条路径经门控机制自适应融合，显著提升CLIP粗分割的准确性。

3. BPPC：框点提示组合器

框提示：Grounding DINO生成候选框，经CLIP异常图筛选校准
正点提示：从异常高响应区域代表性采样
负点提示：从异常区域周边环状区域挖掘边界感知的负样本

三者组合输入SAM，引导其生成更精细、完整的异常分割结果

实验效果

在MVTec-AD和VisA数据集上，DCS在AUROC、F1-max、AP三项指标上均达到最优。例如在MVTec-AD上，相比CLIP-SAM方法，AUROC提升21.4%，充分验证了框架的有效性。

结论

个人认为该方法的优势，基于本文 + Box + Point的组合提示，对缺陷位置分割更加精细，可以自动分类缺陷类别。但是串联Grounding DINO、CLIP、SAM三个大模型，不适合实时场景。

计算开销大，主要瓶颈在Grounding DINO的候选框生成和SAM ViT-H的掩码解码。同时方法基于CLIP、SAM、DINO预训练模型的基础能力，三者任一短板都会影响整体。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-01，如有侵权请联系 cloudcommunity@tencent.com 删除

基础

本文分享自 OpenCV学堂微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

DCS：DINO-CLIP-SAM组合的零样本异常检测王炸

DCS：DINO-CLIP-SAM组合的零样本异常检测王炸

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐