多模态理解模型典型的网络架构如下:
负责将原始图像或视频帧转换为高层语义特征。主流实现采用 Vision Transformer(ViT)架构,如 CLIP-ViT、SigLIP、DINOv2 等预训练视觉编码器。编码器输出通常为一序列 patch token,每个 token 对应图像的一个局部区域。
将视觉(或其他非文本模态)特征对齐到语言模型的语义空间。常见的连接器类型包括 MLP 投影层(简单高效)、Q-Former(BLIP-2 提出,通过可学习查询实现深度对齐)、跨注意力层(Flamingo 方案,在语言模型每层插入交叉注意力)以及 MoE 连接器(自适应选择对齐专家)。
负责跨模态推理和文本生成,是多模态理解模型的核心"大脑"。主流方案采用自回归 Transformer 语言模型,如 LLaMA、Qwen、GLM 等系列。语言模型接收对齐后的多模态特征序列和文本 token 序列,通过统一的自注意力机制进行深度融合推理。