1. 图像理解基准
- MMBench:综合评估模型的视觉感知、逻辑推理、知识理解等多项能力,采用 ChatGPT 辅助的评估协议。
- SEED-Bench:通过人工精选的图文对,评估模型的细粒度多模态理解能力,特别注重模型对图像细节的准确把握。
- OCRBench:专门评估模型的文字识别和理解能力,涵盖场景文字、文档文字、手写文字等多种场景。
2. 视频理解基准
- Video-MME:覆盖短视频、中长视频和长视频的综合视频理解基准,评估模型对时序信息和跨帧语义的理解能力。
- MLVU:专注于长视频理解,考察模型在数分钟至数小时视频中的内容理解和推理能力。
- TempCompass:专门评估模型对时序关系的理解,包括动作顺序、时序推理等能力。
3. 综合多模态基准
- MMMU(Massive Multi-discipline Multimodal Understanding):涵盖多学科、多类型的综合多模态理解评测,被认为是衡量多模态模型综合能力的权威基准之一。
- MMStar:通过精心设计的干扰项,评估模型的真实多模态理解能力(而非单纯依赖语言先验)。
- MathVista:评估模型在视觉情境下的数学推理能力,融合视觉理解和数学推导。