ECCV 2022：某机构计算机视觉研究全景

原创

用户11764306

发布于 2026-06-05 11:21:18

计算机视觉：某机构在ECCV 2022展示的研究广度

研究主题涵盖从视觉异常检测到道路网络提取，从带回归约束的神经架构搜索到面向视频表征的自监督学习。

作者：特约撰稿人

2022年10月26日

8分钟阅读

会议

ECCV 2022

某机构对今年欧洲计算机视觉会议（ECCV）的贡献反映了其广泛的研究兴趣。以下是十二篇ECCV论文的主题和方法快速指南，这些论文的作者均包含某机构的科学家。

通过在线深度聚类进行细粒度时尚表征学习

杨（Andrew）焦，谢宁，高燕，王建智，孙怡

时尚通过全局属性（如“裙长”）和局部属性（如“领口样式”）共同表征。此类属性的准确表征对于时尚检索和时尚推荐等任务至关重要，但独立学习每个属性的表征会忽略属性间共享的视觉统计信息。研究者将表征学习视为一个多任务学习问题，对全局结构施加聚类级别的约束。学习到的表征显著提升了时尚检索的效果。

GLASS：用于场景文本定位的全局到局部注意力机制

罗伊·罗南，沙哈尔·西佩，奥龙·安舍尔，因巴尔·拉维，阿米尔·马尔科维茨，R. 曼马萨

现代文本定位模型将文本检测和识别结合到一个统一的端到端框架中，这两个任务通常依赖于共享的全局特征图。然而，此类模型难以识别存在尺度变化（更小或更大的文本）和任意单词旋转角度的文本。研究者提出了一种新颖的注意力机制用于文本定位，称为GLASS，它融合了全局和局部特征。全局特征从共享骨干网络中提取，而局部特征则在经过调整大小、高分辨率且方向矫正的词块上单独计算。GLASS在多个公共基准上达到了最先进的结果，并且可以集成到其他文本定位解决方案中，提升其性能。

大规模真实世界多人跟踪

帅兵，亚历山德罗·贝尔加莫，乌塔·布希勒，安德鲁·伯内沙维，艾丽莎·博登，约瑟夫·泰格

本文介绍了一个新的多人跟踪数据集——PersonPath22，其规模比现有高质量多目标跟踪数据集大一个数量级以上。PersonPath22 数据集专门选取以提供广泛多样的条件，其标注包含丰富的元数据，允许沿不同维度评估跟踪器的性能。其大规模的真实世界训练和测试数据使学术界能够更好地理解多人跟踪系统在各种场景和条件下的性能。

MaCLR：面向视频的基于运动感知的对比表征学习

方小怡，约瑟夫·泰格，达维德·莫多洛

将自监督学习用于视频的尝试取得了一些成功，但现有方法并未显式利用从时间序列中推导出的运动信息，而这对于有监督的动作识别任务至关重要。研究者提出了一种自监督视频表征学习方法，在训练期间显式建模运动线索。该方法名为 MaCLR，由视觉和运动两条通路组成，通过一种新颖的跨模态对比目标连接，使运动通路能够引导视觉通路关注相关的运动线索。

PSS：用于开放世界视觉表征学习的渐进式样本选择

曹天岳，王永新，邢逸帆，肖天骏，何通，张正，周浩，约瑟夫·泰格

在计算机视觉中，开放世界表征学习是为训练期间未见过的图像类别学习表征的挑战。现有方法做出了不切实际的假设，例如预知未见图像所属类别的数量，或能够预先确定哪些未标记的训练样本属于未见类别。研究者新颖的渐进式方法避免了此类假设，在每次迭代中选择高度同质但属于远离当前已知类别集合的未标记样本。通过对这些选定样本进行聚类生成的高质量伪标签，可以迭代地改进特征泛化能力。

REDs：用于多维特征的非线性GAN潜在空间遍历

古哈·巴拉克里希南，拉古迪普·加德，阿莱克斯·马丁内斯，彼得罗·佩罗纳

生成对抗网络可以将潜在空间中的点映射为图像，产生极其逼真的合成数据。过去控制 GAN 输出的尝试一直在寻找通过潜在空间的线性轨迹，这些轨迹大致对应于特定图像特征的连续变化。研究者提出了一种在潜在空间中寻找非线性轨迹的新方法，提供了对 GAN 输出的空前控制能力，包括在改变其他特征的同时固定指定图像特征的能力。

在多领域基准上重新思考小样本目标检测

李基福，杨浩，萨蒂亚基·查克拉博蒂，蔡兆伟，古鲁穆提·斯瓦米纳坦，阿维纳什·拉维昌德兰，奥卡尔·达比尔

大多数现存的关于小样本目标检测的研究都集中在预训练和小样本学习数据集来自相似领域的设置。研究者提出了一个多领域小样本目标检测基准，包含来自广泛领域的10个数据集，用于在更多样的应用中评估小样本目标检测算法。他们全面分析了层冻结、不同架构和不同预训练数据集对小样本目标检测性能的影响，得出了一些令人惊讶的结论。其中之一是，与先前的观点相反，在多领域基准上，微调是一个强大的小样本目标检测基线。

Spot-the-Difference：用于异常检测与分割的自监督预训练

杨邹，郑钟勋，拉塔·佩穆拉，张东清，奥卡尔·达比尔

视觉异常检测常用于工业质量检测。本文介绍了一个新的数据集和一种新的自监督学习方法，用于ImageNet预训练，以改善在1类和2类5/10/high-shot训练设置下的异常检测与分割。视觉异常数据集包含10,821张高分辨率彩色图像，涵盖三个领域的12个物体，使其成为迄今为止最大的工业异常检测数据集之一。本文还提出了一个新的自监督框架——找不同，它可以正则化对比自监督以及有监督预训练，以更好地处理异常检测任务。

TD-Road：基于整体图构建的自顶向下道路网络提取

何阳，拉维·加格，安布尔·罗伊·乔杜里

从卫星图像中提取道路网络对于构建丰富的地图和实现路线规划及导航中的众多应用至关重要。以往的基于图的方法采用自底向上的方法，估计局部信息并迭代地扩展图。相比之下，本文提出了一种自顶向下的方法，将问题分解为两个子任务：关键点预测和连通性预测。与以往方法不同，所提出的方法将图结构作为深度神经网络的训练监督信号，并通过推理直接生成道路图输出。

面向多样化计算平台的无回归神经网络

拉胡尔·达格尔，周浩，杨硕，方俊，熊元军，夏威

商业机器学习模型不断更新，虽然更新后的模型可能平均性能有所提升，但在它以前能正确处理的特定输入上仍可能出现回归。本文介绍了带回归约束的神经架构搜索，它包含两个部分：(1) 一种新颖的架构约束，使得较大的模型能够包含较小模型的所有权重，从而最大化权重共享；(2) 一种新颖的搜索奖励，将 top-1 准确率和负翻转都纳入架构搜索指标。相对于现有的最先进方法，REG-NAS 能够将负翻转减少33%–48%。

人脸识别中的无监督和半监督偏差基准测试

亚历山德拉·乔德霍瓦，邓思琦，王永新，夏威，彼得罗·佩罗纳

本文介绍了面向人脸识别的半监督性能评估，这是一种统计方法，用于在身份标签不可用或不完整时评估人脸验证系统的性能和算法偏差。该方法基于对人脸嵌入相似度分数的参数贝叶斯建模，能产生点估计、性能曲线和反映估计过程不确定性的置信带。实验表明，SPE-FR 可以准确评估无身份标签数据的性能，并可靠地揭示系统性能中的人口统计偏差。

X-DETR：用于实例级视觉-语言任务的多功能架构

蔡兆伟，权国勇，阿维纳什·拉维昌德兰，埃尔汉·巴斯，朱闻闻，拉胡尔·博提卡，斯特凡诺·索阿托

本文解决了实例级视觉-语言任务的挑战，这些任务需要自由形式的语言与图像内的物体（而非图像本身）对齐。本文提出了 X-DETR 模型，其架构包含三个主要组件：一个目标检测器、一个语言编码器和一个视觉-语言对齐模块。视觉和语言流在最后阶段之前是独立的，它们通过高效的向量点积运算进行对齐。这种简单的架构在多个实例级视觉-语言任务（如开放词汇表目标检测）上表现出良好的准确性和快速的速度。

研究领域