首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >多模态理解模型 >多模态预训练的主要方法有哪些?

多模态预训练的主要方法有哪些?

词条归属:多模态理解模型

1. 对比学习预训练

以 CLIP 为代表,通过"找朋友"式的对比学习目标,拉近匹配图文对的向量距离、推开不匹配对。2025 年至 2026 年的对比学习已升级为支持更多模态(加入音频、视频)和更复杂语义关系的形式。HiMo-CLIP 等新方法通过层次化解构(HiDe)和单调性感知对比损失(MoLo),显著提升了长文本描述场景下的图文匹配性能。

2. 生成式预训练

以 Emu3 为代表,采用"预测下一个 token"的单一目标,统一处理文本、图像和视频的理解与生成。这种方法不需要扩散模型等专用生成架构,通过纯自回归方式实现跨模态的统一学习,具备更强的扩展潜力和通用性。智源研究院的 Emu3 模型即通过这一路线,实现了大规模多模态统一学习。

3. 端到端联合预训练

原生多模态模型采用的路线,从训练伊始就将多种模态数据编码到同一语义空间。腾讯云VITA模型采用这一架构,实现了文本、图像、音频、视频的原生统一处理。这种方法的优势在于不同模态之间可以进行深度、细粒度的语义交互,而非简单的特征拼接。

相关文章
预训练模型还要训练吗_多模态预训练模型
# 1.进入已保存环境的镜像(reid_mgn:v1(8.48G)、pytorch/pytorch:1.0.1-cuda10.0-cudnn7-devel_mgnreid(6.37G))
全栈程序员站长
2022-11-08
1K0
多模态中预训练的演变史
自从2018年bert在NLP领域声名鹊起,通过预训练在n多NLP任务中刷榜,成功发掘出了transformer的潜力,众多研究者就看到了多模态发展的新的机会——使用大量数据做预训练。因为从updn模型开始,多模态这面普遍把图片提取成区域特征序列做后续处理,这样的话多模态是视觉和文本特征序列,NLP中是文本特征序列,没什么本质差异,自然可以把预训练搬过来,一系列多模态transformer预训练的文章应运而生。举个栗子:LXMERT、VLBERT、ViLBERT、UNITER、UNIMO、OSCAR、VisualBert、VLP、今年的ViLT、VinVL、SOHO、SimVLM、METER等等,以及没有使用预训练也达到很好效果的MCAN。
zenRRan
2021-12-04
2K0
DOE有哪些主要方法?
正交试验设计法是研究与处理多因素试验的一种科学方法。它利用一种规格化的表格——正交表,挑选试验条件,安排试验计划和进行试验,并通过较少次数的试验,找出较好的生产条件,即最优或较优的试验方案。其主要用于调查复杂系统(产品、过程)的某些特性或多个因素对系统(产品、过程)某些特性的影响,识别系统中更有影响的因素、其影响的大小,以及因素间可能存在的相互关系,以促进产品的设计开发和过程的优化、控制或改进现有的产品(或系统)。
用户9972271
2023-02-15
2.4K0
如何使用多类型数据预训练多模态模型?
在训练过程中使用更多数据一直是深度学习提效的重要方法之一,在多模态场景也不例外。比如经典的CLIP模型,使用了大规模的网络图文匹配数据进行预训练,在图文匹配等任务上取得非常好的效果。
圆圆的算法笔记
2022-09-22
3K0
Google Gemini 大模型:探索多模态预训练的未来
随着人工智能领域的快速发展,多模态大模型已经成为研究的热点之一。这类模型能够在多种数据类型之间进行转换和生成,从而极大地扩展了人工智能的应用边界。Google Gemini 作为一款集成了先进技术和算法的多模态大模型,在自然语言处理(NLP)、计算机视觉(CV)以及其他领域展现出了非凡的能力。本文旨在探讨 Gemini 的核心技术及其在实际应用中的表现。
用户7353950
2024-11-23
9330
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券