首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DCS:DINO-CLIP-SAM组合的零样本异常检测王炸

DCS:DINO-CLIP-SAM组合的零样本异常检测王炸

作者头像
OpenCV学堂
发布2026-06-01 19:29:46
发布2026-06-01 19:29:46
900
举报

概述

工业产品缺陷检测中,异常样本稀缺且标注困难。零样本异常检测(ZSAD)旨在不依赖目标类别异常样本的情况下完成检测任务。然而,现有方法面临三大痛点:文本提示语义模糊、跨模态交互不足、SAM分割依赖低质量提示。

关键改进

DCS框架整合了Grounding DINO、CLIP和SAM三个基础模型,提出三项关键改进

1. FinePrompt:细粒度文本提示

利用大语言模型为每个类别生成多样化的缺陷描述(如“划痕”“破损”“污渍”),并结合可学习的文本嵌入和自适应权重机制。模型会根据图像内容自动为匹配的描述赋予更高权重,有效缓解语义歧义。

2. ADCI:自适应双路径跨模态交互

设计了两条互补路径:

  • Strip Path:通过行/列注意力聚合,强化条状缺陷和边界的定位能力
  • Scale Path:通过多尺度池化,捕捉不同大小的异常区域

两条路径经门控机制自适应融合,显著提升CLIP粗分割的准确性。

3. BPPC:框点提示组合器

  • 框提示:Grounding DINO生成候选框,经CLIP异常图筛选校准
  • 正点提示:从异常高响应区域代表性采样
  • 负点提示:从异常区域周边环状区域挖掘边界感知的负样本

三者组合输入SAM,引导其生成更精细、完整的异常分割结果

实验效果

在MVTec-AD和VisA数据集上,DCS在AUROC、F1-max、AP三项指标上均达到最优。例如在MVTec-AD上,相比CLIP-SAM方法,AUROC提升21.4%,充分验证了框架的有效性。

结论

个人认为该方法的优势,基于本文 + Box + Point的组合提示,对缺陷位置分割更加精细,可以自动分类缺陷类别。但是 串联Grounding DINO、CLIP、SAM三个大模型,不适合实时场景。

计算开销大,主要瓶颈在Grounding DINO的候选框生成和SAM ViT-H的掩码解码。同时方法基于CLIP、SAM、DINO预训练模型的基础能力,三者任一短板都会影响整体。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档