多模态理解模型的核心技术原理是:
1. 跨模态统一表征
多模态理解的核心在于构建统一的语义表征空间,使不同模态的相同或相关语义在向量空间中彼此靠近。早期系统将图像用 CNN 编码、文本用 RNN/LSTM 处理,融合仅在最后几层进行,存在语义鸿沟和交互浅层的问题。统一表征的目标是将所有模态映射到同一高维语义空间,实现细粒度的跨模态关联理解。
2. 跨模态对齐的三大技术路径
- 双塔架构 + 对比学习:以 CLIP、ALIGN 为代表,图像和文本分别由独立编码器处理,通过对比学习拉近匹配图文对的向量距离。优点是训练高效、支持零样本迁移,但交互发生在最后层,缺乏细粒度融合。
- 单塔融合架构:以 Flamingo、BLIP-2、LLaVA、Qwen-VL 为代表,将图像特征作为"软提示"插入语言模型输入序列,所有模态共享同一 Transformer 主干,实现深度交互。
- 端到端联合训练(原生多模态):以 Gemini 系列、Emu3 为代表,从训练之初就将多种模态数据编码到同一语义空间,采用统一的 Transformer 架构进行端到端训练,无需独立的模块或中间投影层。
3. 对齐模块的关键技术演进
- MLP 投影层:早期方法,通过多层感知机将视觉特征投影到语言模型的词嵌入空间,实现简单高效的对齐。
- Q-Former:BLIP-2 提出的可学习查询机制,通过专门的预训练任务(图像-文本对比学习、图像-文本匹配、图像引导的文本生成)学习高质量的视觉表示,使"冻结主干、只训练适配器"的训练范式成为可能。
- MoE 连接器:针对多任务、多模态场景,引入专家混合网络实现自适应对齐。ChartMoE 等模型通过 MoE 连接器在图表理解任务上取得显著提升。