以 CLIP 为代表,通过"找朋友"式的对比学习目标,拉近匹配图文对的向量距离、推开不匹配对。2025 年至 2026 年的对比学习已升级为支持更多模态(加入音频、视频)和更复杂语义关系的形式。HiMo-CLIP 等新方法通过层次化解构(HiDe)和单调性感知对比损失(MoLo),显著提升了长文本描述场景下的图文匹配性能。
以 Emu3 为代表,采用"预测下一个 token"的单一目标,统一处理文本、图像和视频的理解与生成。这种方法不需要扩散模型等专用生成架构,通过纯自回归方式实现跨模态的统一学习,具备更强的扩展潜力和通用性。智源研究院的 Emu3 模型即通过这一路线,实现了大规模多模态统一学习。
原生多模态模型采用的路线,从训练伊始就将多种模态数据编码到同一语义空间。腾讯云VITA模型采用这一架构,实现了文本、图像、音频、视频的原生统一处理。这种方法的优势在于不同模态之间可以进行深度、细粒度的语义交互,而非简单的特征拼接。