昆虫多样性多模态数据集

原创

用户11764306

发布于 2026-05-04 16:32:31

2470

用于昆虫生物多样性监测的多模态数据集：包含诱捕器和个体水平的图像与DNA数据

摘要

昆虫包含数百万个物种，其中许多物种在环境和栖息地变化下面临严重的种群数量下降。高通量方法对于加速理解昆虫多样性至关重要，DNA条形码和高分辨率成像在自动分类学分类方面显示出巨大潜力。然而，大多数基于图像的方法依赖于个体标本数据，这与大规模生态调查中收集的未经分拣的批量样本不同。我们提出了混合节肢动物样本分割与识别（MassID45）数据集，用于训练批量昆虫样本的自动分类器。该数据集在未分拣的样本层面和全套个体标本层面上，独特地结合了分子和成像数据。人类标注者在AI辅助工具的支持下，对批量图像执行了两项任务：为每个节肢动物个体创建分割掩码，并为超过17000个标本分配分类标签。将DNA条形码的分类学分辨率与批量图像的精确丰度估计相结合，对于快速、大规模表征昆虫群落具有巨大潜力。该数据集推动了微型目标检测和实例分割的边界，促进了生态学和机器学习研究的创新。

背景与概述

昆虫是地球上最多样化的生物群体，已描述的物种超过一百万种，预计还有约四百万种尚未被发现。气候变化和人类活动正在导致昆虫种群的快速下降，许多物种可能在未来几十年面临灭绝。然而，我们对昆虫多样性的理解受到数据严重限制且不完整。特别是，数据生成受到严重缺乏可用分类学专业知识的阻碍。因此，迫切需要高通量方法来研究和监测昆虫群落，基于机器学习的图像分类和分子方法正迅速成为样本分类学表征的有力工具。

为了对不同昆虫样本进行分类学分类，需要大量的训练数据。这需要带有分类标签的示例——用于视觉分类的图像和用于分子方法的DNA序列。目前，最丰富的昆虫DNA序列数据来自标准化基因区域（细胞色素c氧化酶亚基1，COI）的短片段（通常为658 bp），通常称为DNA条形码。包含数百万张昆虫个体标本图像和DNA条形码的综合数据集现已可用于训练分类器。然而，许多大规模的生态研究或监测工作是通过批量样本收集昆虫的，这些样本包含多个具有混合分类组成的标本。将批量样本分拣为单个标本需要大量工作。因此，对于许多生态应用，目前可用的标本级训练数据与需要分类的批量级样本之间存在差异。为了弥补这一差距，需要分类学注释的批量级训练图像。

捕获未分拣批量样本的图像是一个直接的过程，产生一张描绘样本中所有标本的单一图像，以下称为批量图像。从这些批量图像中对昆虫进行分类存在两个关键挑战。首先，由于昆虫的微小尺寸和批量样本中的高标本密度，个体标本在图像中显示为微型目标，形态细节受限。其次，昆虫的高度分类多样性需要大型训练数据集，以便分类器充分覆盖不同的分类群。这些共同对图像的分类学注释构成了重大挑战。因此，先前尝试从批量图像中进行昆虫分类的研究处理了大幅减少的类别数量，产生的信息比群落生态学通常需要的更为粗略。

DNA条形码数据也可以从批量样本中生成，这一过程称为DNA元条形码。然后可以通过与广泛参考数据库（如生命条形码数据系统BOLD）进行比较，将所得的DNA条形码分类到分类群。假设目标群体在参考数据中有很好的代表性，DNA元条形码能产生关于样本分类组成的详细信息。它还能产生关于不同序列变异体相对丰度的数据。然而，DNA元条形码的主要缺点之一是难以推断不同样本和分类群的绝对丰度。为了解决这一挑战，提出了整合DNA和图像数据的方法，利用两种模态的优势。将DNA元条形码的详细分类学分类与相同样本的批量图像相结合（在批量图像中计数分类群相对简单），可以实现绝对的、特定分类群的丰度估计。与单独使用任一数据源相比，同时使用图像和条形码已被证明可以提高分类器的性能。此外，当使用两种模态的个体级数据时，未知物种的属以超过80%的成功率被预测出来。这可以使研究人员即使在包含大量未知物种的样本中也能探索更高分类等级的分类组成，从而能够研究特别多样化的生态系统和生物群体。结合分子和图像数据的另一个好处是提取性状数据的潜力，例如样本中个体体型大小的分布。

在此，展示了混合节肢动物样本分割与识别（MassID45）数据集，该数据集以2021年在瑞典和芬兰部署的Malaise诱捕器收集的45个批量节肢动物样本（主要是昆虫）为中心。利用成像和分子信息，每个样本都包含DNA元条形码数据和一张或多张未分拣的批量图像。还提供了样本级别的生物量测量数据，以支持基于性状的分析。为了便于训练基于机器学习的分类器，还提供了将每个样本分拣为个体标本后获得的个体级图像和DNA条形码序列（总计35510个）。利用AI辅助注释和基于DNA的样本特异性分类，为批量图像中的每个节肢动物提供了详细的分割掩码和分类学注释。使用批量级数据，对微型目标的实例分割进行了基准测试，借鉴了相关的目标检测方法。数据集和实验为捕捉微小、密集排列且有时重叠的物体的领域特定挑战提供了宝贵的视角——这是标准目标检测数据集中较少强调的领域。微型目标检测、开放世界检测、多模态学习和AI辅助注释的最新进展共同使研究人员能够更好地在单帧图像中检测、分类和分析大量微小标本。该数据集有望支持广泛的生态应用，例如训练批量样本的自动分类器、准确计数大型集合中的标本，以及实现大规模形态学分析。从机器学习的角度来看，它也为开发微型目标的实例分割方法、利用弱标注信息进行分类以及使用细粒度类别进行开放世界检测开辟了新途径。通过连接这些领域，该资源为生态学和机器学习的进一步研究提供了宝贵的基础。

方法

时空采样信息

在瑞典和芬兰北部的19个地点使用Townes式Malaise诱捕器对节肢动物群落进行了采样。诱捕器在2021年连续部署，每周清空一次。展示的MassID45数据集是这些样本中45个的子集，收集于2021年3月31日至10月25日之间。每个样本都有一个唯一的六字符字母数字代码命名，并附有地理和时空信息，包括采样点的纬度和经度，以及放置和收集日期。19个采样点中有17个是分层采样设计的一部分，因此相对紧密地聚集在一起。在生态学分析中，这种嵌套设计允许通过一系列尺度比较彼此接近的样本（约10²米）与距离较远的站点（10⁶米）。收集后，样本被运送到某机构的生物多样性基因组学中心，在那里它们被保存在新鲜的96%乙醇中，并在-20°C下储存直至分析。

DNA条形码和成像工作流程

批量样本分析

首先通过批量工作流程分析样本，在该流程中，样本中收集的所有标本同时进行分析，无需事先分拣。过滤掉乙醇后，称量批量样本中的节肢动物以获得湿生物量。然后进行了非破坏性裂解以提取DNA，并从每个样本中收集了三个技术重复。提取后，扩增了COI标准条形码区域内的一个短片段（418 bp），然后在Illumina NovaSeq 6000平台上进行测序。DNA提取后，将每个样本转移到一个半透明的分拣托盘（44 × 39 cm）中，加入少量乙醇，并小心地将标本摊开以最小化重叠。将托盘放置在修改后的灯箱内的LED面板上，移除了前面板，并在天花板上开了一个孔以安装相机。为了进一步改善光照条件，使用了两个环形灯，放置在灯箱的相对两侧。使用佳能EOS R5相机和RF 24–240 mm F4-6.3 IS USM变焦镜头安装在大型翻拍架上，从上方拍摄批量图像。使用的相机设置如下：焦距27 mm，光圈f/20，快门速度1/6秒，ISO 100。每张照片都包含一个特定于样本的二维码。对于四个重量超过约10克的样本，将样本分到两个分拣托盘中，导致每个样本有两张批量图像，总共49张图像。

在Adobe Lightroom Classic中手动编辑全分辨率RAW图像（45兆像素；8192 × 5464），以增强对比度并确保亮色和暗色昆虫身体部位的可见性，使用了以下设置：曝光增加1.3档，白色色阶和高光设置为-100，阴影设置为+50。为了恢复图像对比度和色彩，还将清晰度和饱和度调整到20，并将白平衡从4200K提高到5050K。为了减少噪点和紫边，应用了亮度降噪和去边值20。最后，将锐化提高到60，并将图像保存为JPEG格式。

个体标本分析

批量成像完成后，将批量样本中的每个标本放入96孔圆底微孔板的一个独立孔中进行个体分析。小于5毫米的标本直接放置在孔中，并使用某机构的数字显微镜系统进行成像。对于较大的标本（约>5毫米），移除一条腿用于DNA提取，并将节肢动物的主体用针固定，使用自动成像系统进行成像。使用单分子实时测序技术在PacBio Sequel平台上对每个标本的完整658 bp DNA条形码进行了扩增和测序。来自个体标本的DNA条形码的扩增和测序成功率为97.5%，但只有89.6%通过了质量和污染检查。结合影响元条形码成功的因素，如引物偏倚和非靶标DNA的扩增，因此预计个体和批量水平的DNA条形码数据之间存在一些差异。将图像和DNA条形码上传到BOLD，并使用BOLD ID引擎基于图像和分子信息分配分类学分类。所有标本保留在某机构生物多样性基因组学的自然历史收藏中，以供未来形态学参考。

样本特异性分类法

利用个体级DNA条形码，构建了样本特异性分类法以指导相应批量图像的注释。为此，使用了一个覆盖瑞典所有节肢动物的基础分类法，然后为每个样本将其子集化为仅包含在该样本中观察到的分类群。从BOLD提供的分类法开始，创建了包含界、门、亚门、纲、目、亚目、下目、总科、科、亚科、属和种等级别的基础分类法。用来自瑞典分类数据库Dyntaxa的亚目、下目和总科级别补充了BOLD分类法，该数据库涵盖了瑞典记录的所有节肢动物。将Dyntaxa分类法子集化为六足类和蛛形纲，并通过在门和纲的级别内匹配属名将其与BOLD分类法结合。分类法之间的任何分类学不一致通过给予BOLD分类法优先权来解决。使用了BOLD分类法中出现的科名。对于Dyntaxa使用不同科名的情况，通过与NCBI分类数据库进行比较，验证了Dyntaxa的亚目、下目和总科仍然适用于BOLD科名。如果NCBI为BOLD科名列出了不同的亚目、下目或总科，则将分类法中不一致的等级更改为与NCBI匹配。但是，没有从NCBI向分类法中为空的等级添加任何信息。如果BOLD科没有分类学信息，则保留Dyntaxa的亚目、下目和总科信息。双尾目、弹尾目和原尾目在BOLD中作为纲出现，但在Dyntaxa中作为目出现。将它们保留为分类法中的纲，并移除了所有亚目和下目，因为相同的分类群在BOLD中作为目出现。Dyntaxa分类法中的啮虫目和食毛目被合并为BOLD中的啮虫目。因此在分类法中使用了后者。还在下目和总科之间添加了“微鳞翅类”作为一个非正式的分类群组。该组包括鳞翅目内的14个总科。虽然微鳞翅类不是一个真正的分类群组，但在处理低分辨率昆虫图像时它是一个有用的分类。最后，通过使用对45个样本中每个样本的个体标本进行DNA条形码获得的分类学分类来子集化基础分类法，生成了样本特异性分类法。

批量图像标注

标注步骤1：创建分割掩码

为了便于快速标注大量节肢动物，使用分水岭算法生成初始分割掩码。分水岭分割将图像视为一个地形表面，其中像素强度代表高度，并通过模拟从局部最小值注水来寻找区域之间的边界。像素值低于阈值（8位灰度中为200）的连续区域被分组为一个分割掩码。尽管计算效率高，但这种简单的算法常常将紧密排列的节肢动物组合成单个掩码，并将浅色或半透明的身体部位（如翅膀）以及细长结构（如腿和触角）排除在掩码之外。因此，通过使用某机构注释套件手动编辑掩码来改进它们，这是一个基于网络的标注工具，利用人在环路的AI模型来加速和改进计算机视觉的标注。

为了允许快速标注微型目标，在某机构注释套件中实现了两个自定义功能。首先，修改了创建新分割掩码时的默认缩放行为：不是缩小以显示完整图像，而是保持当前缩放级别，以防止标注者丢失个体昆虫的踪迹。其次，集成了一个比例尺，帮助标注者更好地衡量图像中物体的大小。此外，由于每个批量样本包含36到3228个节肢动物，使用自定义脚本将图像分割成子图像，以便在某机构注释套件中更快地渲染掩码。首先将图像分割成4×4等大的子图像。为了避免节肢动物被子图像边界分割，使用初始分水岭掩码来定位它们。计算每个掩码的质心，并将其分配到相应的子图像。然后调整子图像大小，以包含每个初始分割掩码的完整范围，并留有100像素的缓冲区以便手动调整掩码。这种分割方法导致了一些重叠，使得一些节肢动物出现在多个子图像中。在这些节肢动物出现的所有子图像中，除一个外，其余都进行了视觉标记，以防止创建冗余的手动掩码。

将初始分割掩码上传到某机构注释套件，并使用内置的分割细化工具自动改进，该工具调整每个掩码以仅包含属于该物体的像素。与原始的分水岭掩码相比，自动细化的掩码提供了更精确地贴合节肢动物的轮廓。三位具备昆虫形态学基础知识的标注者随后手动编辑细化的掩码，以确保每个节肢动物都有一个独立的分割掩码，捕获其所有像素而不包含任何背景。标注者可以利用某机构注释套件中的全套工具来编辑掩码。例如，“绘制”和“擦除”通常用于手动编辑掩码，而“框工具”根据标注者提供的边界框估计分割掩码，用于生成被分水岭算法遗漏的节肢动物的掩码。最后，标注者将每个分割掩码分配到四个粗略类别之一：节肢动物、碎片、边缘或不可识别。

标注步骤2：分配分类标签

在标注的第二步中，一位具有节肢动物鉴定经验的“专家标注者”使用某机构注释套件为先前分类为包含节肢动物的每个分割掩码分配分类标签。为了最大限度地减少拼写错误或不同等级之间的分类学分歧，专家标注者从基于个体级DNA分类学分类构建的样本特异性分类法中选择标签。然而，由于个体DNA条形码失败的标本比例较小（尽管存在），专家标注者能够通过创建和分配未出现在样本特异性分类法中的标签来覆盖默认的选择集。要求专家标注者为每个包含节肢动物的分割掩码分配尽可能低的分类群组。

为了让专家标注者能够传达尽可能详细的分类学信息，使用两种不同的方法来区分高置信度和低置信度的标签。首先，通过为单个分割掩码分配不同等级的多個分类标签：属于最高分类等级的标签被视为高置信度，而所有较低等级的标签则被视为低置信度。其次，通过在同一等级分配多个标签：它们最近的共同祖先被视为高置信度标签，而所有其他标签则被视为低置信度。这些方法允许专家标注者表达不确定性，而无需单独的步骤来评估标签置信度。它们还避免了专家量化其置信度的困难。

除了分配分类标签外，还要求专家标注者对来自第一个标注步骤的分割掩码进行质量检查。这是通过某机构注释套件中的一个自定义功能完成的，该功能允许标注者在第二个标注步骤中查看分割掩码。在质量检查期间，专家标注者主要调整掩码，如果对昆虫分类很重要的视觉特征（如翅膀或触角）未包含在掩码中，或者多个节肢动物被组合在一个掩码中。如果例如碎片或不可识别的物体被错误地标记为节肢动物，专家标注者也可以更改最初分配给四个粗略类别之一的标签。

标注完整性与可靠性

能够以高置信度在亚目或更高等级标注批量图像中的大多数标本。包含低置信度标注增加了在较低等级标注的标本数量，几乎一半的标本在总科级别进行了标注，超过三分之一在科级别进行了标注。在较低等级，如属或种，仅从批量图像进行分类学分类对于大多数分类群来说实际上是不可能的。形态特征可能因昆虫在图像中的随机方向（例如，翅膀可能隐藏在主体下方）或批量图像中个体标本呈现的低分辨率而被遮挡。此外，许多诊断特征只能通过显微镜或解剖结构获得，使得对物理标本的检查实质上成为必需。因此，该数据集的主要优势在于其用于训练在目或科级别上操作的模型的实用性，这些级别的标签覆盖率和置信度最高。即使没有物种级别的分辨率，这些等级通常也足以揭示生物多样性和群落组成的广泛模式。在批量图像中，有45个标本被标记为简标签“b”而没有附加任何分类标签，导致17937个错误分割掩码中有17892个被分类学标记。

在这项工作中，除了在第二个标注步骤中进行的分割掩码合理性检查外，没有对标注进行任何独立的验证，这主要是由于数据集开发期间标注者可用性有限。这使得难以直接评估与分割掩码和分类学标注相关的一致性和不确定性。然而，数据集中批量级和个体标本数据的结合提供了将标注标签与预期模式进行比较的内部基础，这可以指示标注的可靠性。

为了评估批量图像标注反映样本中节肢动物真实数量的准确程度，比较了标注为节肢动物的分割掩码数量与从每个样本中分离出的实际标本数量。发现在包含超过约250个节肢动物的样本中，基于批量图像标注的节肢动物数量显著低于真实计数。其中一些差异发生在弹尾目丰度高的样本中，这些样本通常很小、颜色苍白，难以与批量样本中的碎片区分开来。将比较限制在被分类为昆虫纲或蛛形纲的个体标本上（两者通常比弹尾虫更大且颜色更深）减少了标注计数与真实标本计数之间的差异。总体而言，计数的绝对差异随着样本的增大而增加，表明两种可能性。首先，对于人类标注者来说，在个体总数非常高的图像中检测所有昆虫本身就很具挑战性。这些样本通常也含有大量碎片，这些碎片可能遮挡较小的昆虫。此外，由于每个昆虫只占图像的很小一部分，特别是微小的昆虫可能看起来视觉上模糊不清，使得它们难以被正确标注。当图像中昆虫体型差异很大时，这一点尤为突出，因为有限的焦平面无法使所有昆虫都同样清晰聚焦。其次，对于这些大样本，标注者疲劳可能会出现，导致一旦总数已经很高，对缺少分割掩码的节肢动物的修正就会减少。然而，这种解释仍然是推测性的，因为未记录标注会话元数据，无法直接测试疲劳对标注率的影响。在未来的数据集工作中记录此类元数据将有助于在这方面进行更严格的质量评估。

使用目级别的高置信度分类学标注，比较了批量图像标注的数量与从每个样本中分离出的标本数量。发现批量图像标注通常恢复的每个目的标本数量少于分拣出的个体，但标注中缺失的标本比例在不同样本量下基本一致，表明标注中可靠地捕获了分类群的相对比例。与总计数比较一致，弹尾目是例外，许多标本在批量图像标注中缺失。这种模式可能再次反映了由于可见性差，许多最小的标本在标注过程中被遗漏。然而批量图像标注的体型大小分布总体上与Malaise诱捕器捕获的预期分布一致。

机器学习数据集

MassID45作为微型、密集堆积物体的实例分割的基准数据集。实例分割不同于其他任务，如使用边界框的目标检测和标记像素但不区分单个物体的语义分割。相比之下，实例分割为每个单独的物体分配一个唯一的像素级掩码。使用完全标注的49张批量图像，将任务限定为节肢动物标本的实例分割，即将此问题作为一个单类别、小实例分割任务来处理。

标注以与某机构通用物体检测数据集相同的格式从某机构注释套件导出，该数据集是预训练目标检测和实例分割模型的基准数据集。基于某机构数据集约定设计了实例分割模型的评估方案，包括依赖于要检测的实例掩码面积的指标。然而某机构评估方案是为比MassID45数据集中的物体大得多的物体设计的，76.5%的节肢动物掩码被归类为“小”。因此，为了增加性能评估的粒度，使用了iSAID（一个用于小目标检测和实例分割的遥感图像数据集）的面积阈值。因此，将物体大小定义如下：“微小”为面积<144像素；“小”为面积≥144但<1024像素；“中/大”为面积≥1024像素。总共，49张完全标注的批量图像包含17937个节肢动物的分割掩码。掩码面积范围在15.1到83182.4像素之间，平均值和中位数分别为1152.2和343.4像素。

批量图像预处理

在训练深度神经网络执行实例分割之前，对图像和分割掩码数据进行了预处理。首先将子图像的标注合并回以匹配原始批量图像。这允许根据需要将图像分解成瓦片用于模型训练。使用Python的Shapely库合并具有多个多边形的分割掩码，并纠正无效的多边形掩码。昆虫掩码被处理为凹包，填充编辑后分割掩码中的孔洞，以创建单个多边形。对于17937个昆虫掩码中的63个，这些预处理步骤导致几个无法通过并集合并的未连接多边形。在这种情况下，取面积最大的多边形作为最终掩码。这确保了深度学习模型只需要为每个标注预测一个多边形，简化了分割任务。清理分割掩码后，手动裁剪批量图像，使其仅包含昆虫存在的区域。这产生了最终裁剪后的不同尺寸的批量图像。

数据记录

MassID45数据集组织为两个分辨率级别：包含批量图像、元条形码数据和分类学图像标注的批量样本，以及包含个体图像和DNA条形码数据的个体标本。样本元数据、批量样本图像、批量图像标注以及此处描述的模型均可从Zenodo获取。样本元数据以CSV文件形式提供，每行对应一个样本，由唯一的六字符字母数字代码标识。相同的样本代码用作相应批量图像的文件名，后跟后缀_{image}，其中image为1或2（如果每个样本有多个图像）。提供了CR3格式的原始图像和JPEG格式的编辑后图像。批量图像标注可从步骤1和步骤2以COCO和TORAS两种格式获得。训练好的模型以PyTorch检查点形式提供。

批量样本的原始测序读数可从ENA获取，项目登录号为PRJEB86111。每个测序重复的序列由两个gzip压缩的FASTQ文件表示，包含R1和R2双端读段。因此，每个物理样本总共有六个文件。个体节肢动物图像和DNA条形码序列可在BOLD上以项目ID DS-LPEPA22获取。在BOLD上，字段ID变量对应于样本元数据和批量图像名称中使用的样本代码，而样本ID是每个个体标本唯一的标识符。

技术验证

在这项工作中，使用两种范式对MassID45上的实例分割性能进行了基准测试：零样本学习和监督学习。此分析旨在评估专家标注对于检测小型节肢动物的价值，与“开箱即用”的通用模型进行比较。

在零样本范式下，使用了未见过任何MassID45数据训练示例的模型。零样本模型完全依赖其预训练数据来泛化到未见领域的图像。通过监督学习，使用MassID45数据集中的标注示例训练实例分割模型。通过比较零样本和监督方法的表现，评估专家标注是否足以证明标注工作的价值，或者现有的通用模型是否能在MassID45数据上达到足够的检测性能。

实验设置

将批量图像分割成瓦片

由于GPU内存限制和图像的高分辨率，无法在训练或推理期间将整个批量图像呈现给深度学习模型。作为解决方案，将批量图像分割成瓦片。与下采样图像相比，瓦片分割保留了原始图像的像素密度。使用瓦片分割避免了视觉细节的丢失，这对于MassID45数据集中的小型昆虫尤其重要。使用滑动窗口从批量图像中裁剪出瓦片，每个瓦片在模型训练和推理期间被视为一个独立的图像。确定训练和推理的最佳瓦片大小为512×512像素。在分瓦片过程中，一些昆虫可能会被切割在瓦片之间。为了缓解这个问题，瓦片之间使用了60%的重叠，从而确保沿一个瓦片边界切割的昆虫在相邻瓦片中完整显示。

瓦片分割在推理过程中引入了一个挑战：当同一个昆虫出现在多个重叠的瓦片中时，将每个瓦片视为独立的图像会导致重复检测和不准确的性能估计。为了解决这个问题，实现了切片辅助超推理，这是一种旨在合并重叠瓦片上的预测并在完整批量图像中准确重建检测结果的方法。SAHI算法先前已用于遥感和害虫监测中的小目标检测问题。使用SAHI通过应用非极大值合并来后处理瓦片预测。NMM依赖于交并比来衡量两个掩码的重叠程度，以识别和合并可能是重复的预测。在对所有瓦片的预测掩码按置信度得分排序后，NMM识别并分组重叠超过预定IoU阈值的检测结果。在每个重叠掩码组内，NMM迭代合并成对预测，产生一个跨越它们组合面积的新掩码和一个由原始掩码置信度得分和面积加权的新置信度得分。这种成对合并持续进行，直到每组重叠检测结果剩下一个掩码。最后，将合并后的一组预测从瓦片映射回原始批量图像，从而可以直接针对真实批量图像进行评估。当跨瓦片合并预测时，使用了50%的IoUNMM。

数据划分

将批量图像随机划分为训练集、验证集和测试集。将批量图像分割成512×512像素的瓦片后，得到17062个训练瓦片、1244个验证瓦片和1586个测试瓦片。为防止数据泄漏，来自同一个批量图像的所有瓦片都分配到同一个数据集划分中。包括瓦片之间重复和/或部分切割的昆虫，瓦片化训练集包含110520个昆虫，瓦片化验证集包含5867个，瓦片化测试集包含6241个。验证集和测试集包含训练期间未见过的数据，用于评估模型对新现实世界数据的泛化能力。验证集用于指导中间建模决策，而测试集用于在所有模型开发和实验完成后测量最终模型的性能。

数据增强

为了人为增加训练样本的数量并提高泛化能力，对训练划分中的瓦片图像应用了数据增强，借鉴了先前专注于遥感和水下图像中小目标检测的工作。需要注意的是，瓦片化过程本身也作为一种数据增强形式，因为节肢动物可能出现在多个相邻的瓦片中。采用了基于几何和颜色的增强，这些增强为批量图像引入了变化，同时确保昆虫仍然可以被识别。例如，随机旋转和水平翻转模拟了节肢动物放置在分拣托盘时可能呈现的方向。亮度、对比度和饱和度的随机调整旨在使模型对批量图像间微小的光照差异以及节肢动物自然的颜色差异更具鲁棒性。将这些增强应用于瓦片化的批量图像，然后在训练期间将每个增强后的瓦片使用双线性插值调整到固定的1024×1024输入大小，再呈现给模型。

评估指标

使用SAHI合并预测后，遵循某机构评估方案计算评估指标，该方案依赖于IoU、精确率和召回率。对于给定的实例掩码预测，IoU量化了预测实例掩码与真实标注之间的重叠度。计算评估指标时，使用了一个置信度阈值来过滤不确定的预测，以及一个IoU阈值来严格定义预测掩码与真实标注需要重叠多少才算正确。基于实例级别的分类，计算了精确率和召回率。精确率量化了模型检测到的昆虫中实际正确的比例。召回率反映了模型检测到的实际昆虫标本的比例。通过固定IoUeval并改变confeval来计算精确率-召回率曲线。然后按照某机构评估方案，计算了平均精度，定义为精确率-召回率曲线下的面积，针对几个IoUeval阈值。报告了以下聚合指标：

AP50:5:95：计算在50%到95%之间以5%为增量的IoUeval阈值范围内的AP值的平均值。
AP50：在固定IoUeval为50%时的AP。
AP75：在固定IoUeval为75%时的AP。

还测量了“微小”、“小”和“中/大”物体类别的AP50:5:95，分别表示为APT、APS和APML。报告了每个监督基线在六张批量图像的测试集上的最终评估指标。

实例分割模型基准测试

实现零样本检测器

零样本方法可以在没有任何预先微调的情况下定位新领域的物体，完全依赖于来自大型多样化数据集的预训练，包括多模态数据。通过将其应用于一个具有挑战性的新领域——MassID45数据中的小型节肢动物，来评估其泛化能力。为了一致性，应用了相同的SAHI方法，使用512×512像素的瓦片和60%的重叠。

选择了代表不同形式零样本检测的方法，包括无监督实例分割、使用文本提示的开放词汇或开放集模型，以及大型最先进的多模态模型。为了执行实例分割，将后三种方法与某机构的Segment Anything Model 2配对，这是一个用于图像分割的基础模型。来自某个模型、另一模型和某模型的边界框被用作SAM 2.1的提示，生成用于实例分割评估方案的实例掩码。

实现监督检测器

对于监督模型，选择了三种最初为标准计算机视觉数据集（如某机构数据集）开发的通用架构，这些数据集包含数百万张日常物体的图像。旨在确定当有专家标注指导时，它们是否能适应MassID45中的小型、细节丰富的生物体。这些模型包括实例分割的流行基线Mask R-CNN，以及两种较新的方法Mask2Former和Mask DINO。后者使用基于Transformer的架构，该架构推动了计算机视觉的最新进展，在某机构基准测试上取得了最先进的结果。

所有监督模型都使用在MS-COCO数据集上预训练的ResNet-50骨干网络的权重进行初始化，从而能够利用大型基准数据集的特征。尽管MS-COCO不包含节肢动物，但它包含近150万个标记的物体实例，为模型提供了通用的视觉特征，如边缘、形状、纹理和颜色模式。这些基础特征随后可以跨领域迁移。这种称为迁移学习的策略为从头开始训练模型提供了实用的替代方案。使用MS-COCO预训练的实例分割检查点确保所有三个模型从相同的视觉理解基线开始，从而可以更公平地比较每个架构如何适应在MassID45数据集中分割小型节肢动物的专门任务。使用随机初始化的权重进行训练将要求模型从一个相对较小的数据集中学习所有视觉特征，增加了泛化不良的风险。

使用某机构库对每个模型进行了15000次迭代的微调，批量大小为8，使用AdamW优化器，峰值学习率为5×10⁻⁵，权重衰减为0.05。在所有训练运行中，使用了单周期余弦退火学习率调度，预热期为4500次迭代。训练使用四个NVIDIA RTX6000 GPU进行。推理时，应用SAHI方法，将测试划分中的批量图像分割成512×512像素、重叠60%的瓦片。然后使用50%的IoUNMM将预测从瓦片映射回原始批量图像尺寸。

性能评估

在没有对MassID45数据进行微调的情况下，零样本模型的表现显著差于监督模型。表现最好的零样本方法仅达到了27.1%的掩码AP50:5:95，远低于Mask DINO（几乎所有AP指标中表现最好的模型）达到的43.5%。

需要注意的是，报告的AP评估指标描述了在多个IoU和置信度阈值上的性能。当这些实例分割模型部署在现实世界中时，必须为置信度阈值选择一个固定的工作点。为每个检测器选择了不同的置信度阈值，这些阈值在验证集上最大化该模型的F1分数。然后使用这些置信度阈值来过滤测试集上的预测。使用这些固定的置信度阈值，可视化每个模型在测试集一个示例块上的预测。定性地看，某个模型能够成功定位和分割较大的节肢动物，但遗漏了大多数小型昆虫。它还将QR码错误识别为昆虫。相比之下，监督模型产生的实例掩码与真实情况吻合良好。然而观察到将碎片与小型昆虫分开是一项困难的任务，因为监督模型倾向于将小而松散的碎片与昆虫混淆，反之亦然。对于此示例块，还报告了TP、FP和FN像素的数量，以说明每个模型预测之间的差异。零样本的某模型预测的FP和FN显著多于监督模型。相反，三个监督模型预测的FP和FN数量相似，Mask DINO预测的FN最少，Mask R-CNN检测到的FP最少。在MassID45测试集的六张批量图像中聚合TP、FP和FN像素时可以看到类似的趋势。

为了评估模型在测试划分中不同批量图像上的稳定性，还计算了每个模型在测试图像上的平均AP指标。每个测试批量图像中的昆虫数量差异很大，有些仅包含48只昆虫，而有些则包含多达443只昆虫。因此，每个检测器的图像平均AP50:5:95略有下降，因为AP计算不再由具有许多标本的测试图像主导。尽管如此，模型排名基本保持不变，Mask DINO和Mask R-CNN提供了最强的监督性能，而某模型和另一模型实现了最强的零样本性能。正如预期的那样，监督检测器通常比零样本检测器表现出更低的方差。

对于实际应用，个别的IoU阈值通常比组合指标AP50:5:95更具可解释性，因为它们指定了预测掩码必须与真实昆虫轮廓对齐的紧密程度。对于侧重于估计标本计数的任务，检测昆虫的存在通常就足够了，使得AP50成为合适的性能指标。相比之下，生物量估计等应用需要更精确地描绘昆虫形状，使得AP75成为模型准确性的更相关度量。在结果中，AP75显著低于AP50，表明大多数掩码的IoU小于50%。低的IoU可能源于部分检测。根据对测试集的预测，发现Mask DINO能够相当好地预测节肢动物的总数及其大小分布，表明尽管与真实标注的重叠不完美，但它能够准确恢复生态学相关数据。“微小”类别中的标本在检测中代表性略有不足，而较大的掩码则代表性过高，这表明MaskDINO偶尔会预测出比小型昆虫真实尺寸更大的分割掩码。

零样本基线相对较差的性能表明，对于像从MassID45数据集中检测节肢动物这样的专门任务，仍然需要微调。更重要的是，这一发现强调了专家标注对于批量图像分析的重要性。检测任务的复杂性是由节肢动物的小尺寸以及它们与周围碎片的高度相似性引起的。虽然未在本工作中探索，但在MassID45数据集上微调这些零样本方法可能是有益的。然而值得注意的是，本工作中探索的监督模型是针对使用实验设置获得的批量图像进行优化的，可能需要对从不同实验条件下拍摄的批量图像进行进一步微调。因此，此分析将MassID45定位为一个具有挑战性的基准数据集，用于自定义监督模型、视觉基础模型和其他零样本检测器，因为它评估了它们识别微小、模糊物体的能力，而不是文献中通常考虑的较大的常见物体。

使用说明

标注工作流程由两个独立的步骤组成，只有步骤1中的一部分标注（那些归类为节肢动物的）在步骤2中被标注。在步骤2中，标注者的主要任务是为每个标本提供分类标签。然而，如果第二位标注者不同意第一个分类，他们可以将其更改为其他三个类别之一。因此，对于同时具有广泛类别和分类学标注的完整标注集，必须合并步骤1和步骤2的输出。对于分类学标注，使用了多个标签作为表达标注者不确定性的方式。因此如果需要单个标签，建议仔细选择使用哪个分类群名称。由于所有分类学标注均由一位专家标注者生成，独立验证和标注者间一致性评估的机会有限。分类标签的用户可能希望根据预期应用进行额外的验证，特别是对于精细级别的分类学分析。

尽管努力确保批量图像被完全标注，但一些位于4×4标注者块边界的昆虫可能被遗漏。如上所述，昆虫在图像中可能显得模糊。这种图像质量的限制可以通过超分辨率等技术来解决。将此留待未来的工作。

对于个体标本数据，BOLD数据包包含来自一个额外样本的标本。已从呈现的数据集中排除了该样本，因为它没有被完整分INCOMPLETE

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习