多模态理解模型支持模态类型如下:
最基础也是最常用的模态,模型通过 tokenizer 将文本转换为离散 token 序列,利用 Transformer 架构进行语义理解和生成。主流多模态模型均以文本作为核心交互媒介和输出形式。
通过视觉编码器(如 ViT、CLIP Vision、SigLIP)将图像转换为特征序列。支持的图像理解任务包括图像描述、视觉问答、OCR、目标检测、图像分类等。图像分辨率从早期的 224×224 提升至支持超高分辨率输入,显著增强了细粒度理解能力。
视频是时序化的图像序列,模型需要处理帧间时序关系。主流方案包括稀疏采样(提取关键帧)、密集采样(逐帧处理)和 3D 卷积/时序 Transformer。2025 年至 2026 年的前沿模型已支持数小时级别的长视频理解,并能进行时序定位和事件检测。
包括语音识别和语义理解两个层面。原生多模态模型可直接对语音做语义理解、内容总结,无需借助外部 ASR 工具。音频模态使模型能够理解语调、情感、说话人身份等副语言信息,在播客理解、会议录音分析等场景具有重要价值。
前沿研究方向,包括 3D 点云理解、深度图、IMU 传感器数据等。2026 年出现的"3DThinker"技术旨在解决现有模型在 3D 空间理解方面的不足,推动多模态模型从"图像描述"向"从图像进行空间想象"演进。