CVPR 2026 Oral｜十年耕耘！TPC-268：首个融合植物分类学的细粒度植物计数基准

Amusi

发布于 2026-06-05 20:04:26

文章被收录于专栏：CVerCVer

转载自：植物表型咨讯

从自然图像中准确估计目标数量，是计算机视觉长期关注的基础任务之一。过去十多年，人群计数、车辆计数、细胞计数等方向已取得了长足进展，模型能够在遮挡、密集分布和尺度变化等复杂场景中完成计数。不过，这类任务通常有一个共同前提：计数对象相对明确。例如，人群计数关注“人”，车辆计数关注“车”，问题核心更多在于如何数得准。

植物计数则面临更复杂的情况。植物并非形态稳定、结构清晰的刚性目标，而是具有丰富变化和层级结构的生命体。对于模型而言，难点不仅在于估计数量，还在于如何理解不同物种、不同器官以及不同观测尺度下的视觉差异。

具体来看，植物计数主要面临以下挑战：

非刚性形态：植物没有固定轮廓，枝叶、花果等结构柔性强，不同个体之间形态差异明显；
生物多样性：植物类群丰富，不同物种在形态、纹理和器官结构上差异显著；
细粒度差异：相近物种之间可能高度相似，需要模型捕捉细微视觉差别；
时变空变性：同一物种会随生长阶段发生变化，也会受到环境、光照、遮挡和拍摄尺度影响；
尺度跨度大：计数对象既可以是显微镜下的气孔，也可以是田间植株，甚至是无人机视角下的冠层。

在这样的背景下，华中科技大学陆昊副教授团队提出了 TPC-268，这是首个融合植物分类学的细粒度植物计数基准数据集，相关论文《Plant Taxonomy Meets Plant Counting: A Fine-Grained, Taxonomic Dataset for Counting Hundreds of Plant Species》被 CVPR 2026 接收为 Oral。

代码仓库: https://github.com/tiny-smart/TPC-268

论文链接: https://arxiv.org/abs/2603.21229

项目主页: https://tiny-smart.github.io/tpc268-project-page

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition）是计算机视觉与模式识别领域的顶级国际学术会议，与 ICCV、ECCV 并称“CV三大顶会”。在中国计算机学会（CCF）推荐列表中为 A类会议，在谷歌学术（Google Scholar Metrics）的评级中，CVPR 长期处于全球顶尖梯队，近年更是稳定在总榜第 2 名的位置（仅次于Nature，高于 Science）。在CVPR中，录用的论文分为 Oral（口头报告）、Highlight（亮点论文）和 Poster（海报）几个档次。其中Oral 是公认含金量最高的。例如，CVPR 2025 的Oral入选率仅约 0.74%（96篇 / 约13,008篇投稿）。

与已有视觉计数数据集相比，TPC-268 的意义不只是规模上的扩展，更在于对任务本身的重新定义以及与植物表型的深度交融。已有数据集大多面向人群、车辆、细胞或通用物体类别，而 TPC-268 面向植物界具有细粒度差异的类群，将分类学结构、组织层级和多尺度观测系统地引入计数任务，使问题更加贴近真实自然场景。

图1植物和其他通用计数对象的差异

TPC-268 的数据规模可以概括为：

10,000 张图像
678,050 个点标注；30,000 个边界框标注
242 个物种；268 个可计数类别

其中，“可计数类别”并不是简单的物种类别，而是由物种名 + 生物组织单元共同定义。例如，同一物种的叶、花、果实或气孔，在视觉形态和计数方式上存在显著差异，因此被视为不同的计数类别。这种定义方式使任务从单一类别计数，扩展为更细粒度的结构化计数问题。

TPC-268 的核心设计之一，是将植物分类学引入计数任务。植物天然具有层级结构（界、门、纲、目、科、属、种），不同层级对应不同程度的生物学相似性。通过将每个样本与完整分类学路径关联起来，模型不再面对孤立类别，而是在一个具有层级关系的空间中进行学习，从而具备跨物种泛化的可能。

图2 TPC-268中的生物学层级

除了分类学信息，TPC-268 还在组织层级和观测尺度上进行了系统扩展。

数据中的计数对象覆盖多个生物层级：

组织级：如显微镜下的气孔；
器官级：如叶、花、果实等；
个体级：如整株植物；
群体级：如田间或无人机视角下的冠层。

同时，数据来源覆盖实验室、温室、田间和自然环境，观测尺度从显微图像延伸到无人机遥感图像。也就是说，TPC-268 将原本分散在不同研究场景中的计数问题统一到一个框架中，使模型需要同时适应不同尺度和不同结构的目标。

图3 TPC-268数据集横跨不同环境、不同观测尺度的植物对象

在数据分布上，TPC-268 保留了真实世界中的长尾特征：部分物种样本较多，而大量物种样本较少；单张图像中的实例数量差异也较大。这种分布使模型难以依赖简单记忆，而必须具备更强的泛化能力。

在数据划分上，TPC-268 以“物种-生物组织单元”为基本单位进行划分，每个类别只出现在训练、验证或测试集中的一个子集中，从而避免类别重叠，更真实地评估模型在未见类别上的表现。

基于该数据集，作者对多种主流类别无关计数方法进行了系统评测，得到几个具有代表性的结论：

回归方法优于检测方法 植物实例往往密集、交叠且边界不清晰，检测方法难以分离目标，而基于密度图的回归方法更适合整体数量估计。
局部结构对泛化更关键 一些主要依赖全局注意力的模型在验证集上表现极好，但在测试集（未见类别）上明显下降；相比之下，能够利用局部结构信息的方法在跨物种场景中更稳定。

分类学信息具有实际作用 相比仅使用视觉样本作为提示，在模型输入中加入物种名称，或进一步加入完整的分类学层级路径，都能够有效降低计数误差。这说明结构化的生物学知识可以为模型提供有价值的先验信息。

植物计数更具挑战性 跨数据集实验显示，在通用计数数据集上训练的模型，迁移到 TPC-268 后性能明显下降；而在 TPC-268 上训练的模型，迁移到通用计数数据集时表现相对更稳定。这说明植物计数并不是通用计数任务的简单子集，而是包含更丰富形态变化和细粒度差异的高难度场景。

特征可视化进一步揭示表征难度 作者对当前表现最佳方法在测试集上的特征进行 t-SNE 可视化，并分别按分类学“目”和生物组织类型着色。结果显示，样本未形成清晰分离的簇，说明现有方法仍难以仅凭视觉特征捕捉植物中的深层类别差异和生物学结构。

从人群、车辆到植物，视觉计数面对的不再只是目标数量的变化，而是对象复杂性的升级。TPC-268将植物天然具有的分类学层级、形态多样性和表型平台的多尺度观测特性纳入统一基准，也通过实验表明：面向真实自然场景的鲁棒计数，不能只依赖通用视觉特征，还需要理解细粒度结构与生物学层级关系。由此，TPC-268 不仅为植物计数提供了新的标准基准，也为视觉计数走向更复杂、更真实的自然场景提供了新的起点。

工作背后的故事：十年耕耘，植物表型计数的坚持

植物计数并非团队随波逐流的选题，而是贯穿十余年的坚守方向。在主流视觉研究中，植物的形态复杂性、生物层级结构与农业场景的真实难度，长期处于相对边缘的位置。这条相对小众的路，团队一步步走了很久，相关探索也始终难以进入顶级视觉会议的视野。而这一次，TPC-268 被 CVPR 2026 接收为 Oral，意味着这份坚持终于被主流CV社区真正看见。

这份成果不是一蹴而就。数据集的构想始于两年前，数据依托全国各地植物表型领域专家的支持与共享，标注与整理工作由多届学生接力参与，在漫长的积累与打磨中逐步成型。从最初评审得分 6、4、4，到最终提升为 6、6、6满分，植物表型与视觉交叉研究的价值，正是在这样一步一步的沉淀中慢慢被看见。团队陆昊老师说，近几年他慢慢喜欢布局一些长周期的工作，虽然不清楚这样的工作能否会增加一些影响力，但至少工作看起来能更扎实。科研，有时候慢一点可能更快。当然，在充满各种KPI考核的大环境下，坚定执行需要足够的勇气。

尤为珍贵的是，这项工作的一作和二作均为本科生。在几届本科生的接力下，论文第一作者徐进宇同学最终将复杂的数据集构想打磨成一份完整而扎实的成果。截稿前夕，恰逢国际植物表型大会在三亚召开，团队不得已，只能在酒店改稿，老师同学们并肩作战，鏖战至深夜，最终以高标准完成了提交。

TPC-268 代表的不仅仅是一个数据集，更承载着团队十余年来在植物表型与计算机视觉交叉领域的坚守。它让长期被忽视的植物复杂性真正走进主流计算机视觉研究的视野，也推动计算机视觉进一步探索自然世界的结构与内在规律。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-04，如有侵权请联系 cloudcommunity@tencent.com 删除

对象