最基础的多模态预训练数据,包含图像及其对应的文本描述。典型来源包括网络爬取的图文对(如 LAION 系列)、人工标注的图像描述数据集(如 COCO、NoCaps)。数据规模从数百万到数十亿不等,数据质量和描述准确性对模型性能有显著影响。
用于微调阶段,使模型能够理解用户意图并完成特定任务。包括图像问答对(VQA)、多轮对话数据、任务指令数据(如"描述这张图片""找出图中的红色汽车")等。2025 年以来,高质量、多样化的指令数据集成为提升模型多模态对话能力的关键。
包含视频及其文本描述、时序标注、事件边界等信息。典型数据集包括 MSVD、MSR-VTT、ActivityNet、HowTo100M 等。视频数据集的标注成本较高,因此视频理解模型的训练数据规模通常小于图像理解模型。
包括语音-文本对、音频描述数据集、视听联合数据集(如 AudioCaps、Clotho)以及同时包含图像/视频/音频/文本的"全模态"数据集。随着原生多模态模型的发展,这类数据集的需求快速增长。