开发者社区

文档建议反馈控制台

技术百科

搜索技术百科

技术百科

发布

技术百科首页 >多模态理解模型 >多模态预训练的主要方法有哪些？

多模态预训练的主要方法有哪些？

修改于 2026-06-15 11:53:45

6

词条归属：多模态理解模型

1. 对比学习预训练

以 CLIP 为代表，通过"找朋友"式的对比学习目标，拉近匹配图文对的向量距离、推开不匹配对。2025 年至 2026 年的对比学习已升级为支持更多模态（加入音频、视频）和更复杂语义关系的形式。HiMo-CLIP 等新方法通过层次化解构（HiDe）和单调性感知对比损失（MoLo），显著提升了长文本描述场景下的图文匹配性能。

2. 生成式预训练

以 Emu3 为代表，采用"预测下一个 token"的单一目标，统一处理文本、图像和视频的理解与生成。这种方法不需要扩散模型等专用生成架构，通过纯自回归方式实现跨模态的统一学习，具备更强的扩展潜力和通用性。智源研究院的 Emu3 模型即通过这一路线，实现了大规模多模态统一学习。

3. 端到端联合预训练

原生多模态模型采用的路线，从训练伊始就将多种模态数据编码到同一语义空间。腾讯云VITA模型采用这一架构，实现了文本、图像、音频、视频的原生统一处理。这种方法的优势在于不同模态之间可以进行深度、细粒度的语义交互，而非简单的特征拼接。

相关文章

预训练模型还要训练吗_多模态预训练模型

容器镜像服务 pytorch bash bash 指令 python

# 1.进入已保存环境的镜像（reid_mgn:v1（8.48G）、pytorch/pytorch:1.0.1-cuda10.0-cudnn7-devel_mgnreid（6.37G））

全栈程序员站长

2022-11-08

1K0

多模态中预训练的演变史

css 图像识别

自从2018年bert在NLP领域声名鹊起，通过预训练在n多NLP任务中刷榜，成功发掘出了transformer的潜力，众多研究者就看到了多模态发展的新的机会——使用大量数据做预训练。因为从updn模型开始，多模态这面普遍把图片提取成区域特征序列做后续处理，这样的话多模态是视觉和文本特征序列，NLP中是文本特征序列，没什么本质差异，自然可以把预训练搬过来，一系列多模态transformer预训练的文章应运而生。举个栗子：LXMERT、VLBERT、ViLBERT、UNITER、UNIMO、OSCAR、VisualBert、VLP、今年的ViLT、VinVL、SOHO、SimVLM、METER等等，以及没有使用预训练也达到很好效果的MCAN。

2021-12-04

2K0

DOE有哪些主要方法?

互动课堂运维

正交试验设计法是研究与处理多因素试验的一种科学方法。它利用一种规格化的表格——正交表，挑选试验条件，安排试验计划和进行试验，并通过较少次数的试验，找出较好的生产条件，即最优或较优的试验方案。其主要用于调查复杂系统（产品、过程）的某些特性或多个因素对系统（产品、过程）某些特性的影响，识别系统中更有影响的因素、其影响的大小，以及因素间可能存在的相互关系，以促进产品的设计开发和过程的优化、控制或改进现有的产品（或系统）。

2023-02-15

2.4K0

如何使用多类型数据预训练多模态模型？

tcp/ip 编程算法

在训练过程中使用更多数据一直是深度学习提效的重要方法之一，在多模态场景也不例外。比如经典的CLIP模型，使用了大规模的网络图文匹配数据进行预训练，在图文匹配等任务上取得非常好的效果。

圆圆的算法笔记

2022-09-22

3K0

Google Gemini 大模型：探索多模态预训练的未来

google 架构模型数据优化

随着人工智能领域的快速发展，多模态大模型已经成为研究的热点之一。这类模型能够在多种数据类型之间进行转换和生成，从而极大地扩展了人工智能的应用边界。Google Gemini 作为一款集成了先进技术和算法的多模态大模型，在自然语言处理（NLP）、计算机视觉（CV）以及其他领域展现出了非凡的能力。本文旨在探讨 Gemini 的核心技术及其在实际应用中的表现。

2024-11-23

9330

点击加载更多