首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >多模态理解模型 >多模态理解模型如何处理不同模态的 token 化?

多模态理解模型如何处理不同模态的 token 化?

词条归属:多模态理解模型

1. 文本 token 化

文本通过分词器(Tokenizer)转换为离散 token 序列。主流多模态模型采用与基础语言模型相同的分词方案(如 BPE、WordPiece),确保文本模态与语言模型主干的无缝衔接。

2. 图像 token 化

图像首先被切分为固定大小的 patch(如 14×14 像素),每个 patch 通过线性投影或小型网络转换为一个 token,整体形成 patch token 序列。高分辨率图像会产生更长的 token 序列,对上下文窗口提出更高要求。部分模型采用动态分辨率策略,根据图像内容复杂度自适应调整 patch 数量。

3. 视频 token 化

视频 token 化面临时序长度和计算成本的双重挑战。主流方案包括:

  • 稀疏采样:从整个视频中均匀或自适应地抽取若干关键帧,将每帧作为图像处理
  • 时序压缩:通过 3D 卷积或时序注意力机制,在保留关键时序信息的同时压缩 token 数量;
  • 长视频分段:将长视频切分为多个片段分别处理,再通过跨段注意力或摘要机制整合全局信息。

4. 音频 token 化

音频信号首先被转换为频谱图(如梅尔频谱图),再视为"图像"通过视觉编码器处理;或直接通过音频专用编码器(如 Whisper 编码器)转换为 token 序列。原生多模态模型倾向于将音频与其他模态在同一语义空间中统一表示,实现真正的端到端音频理解。

相关文章
多模态理解模型的Token消耗优化策略
摘要: 多模态理解模型按Token消耗量计费,优化Token使用是控制成本的关键。本文基于VITA多模态理解模型的Token消耗规则,从输入素材准备、指令编写、调用策略三个维度,提供可操作的优化建议。
克劳德2048
2026-06-18
20
聊聊多模态大模型处理的思考
多模态:文本、音频、视频、图像等多形态的展现形式。 目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下,审视下多模态大模型的实现方式。 首先就要区分输入与输出,即输入的模态与输出的模态。从目前来看,模型的输出大多都是文本,模型的输入一般是图片/文本;但少数的大模型比如QWen、讯飞星火等支持语音的输入。
Ryan_OVO
2024-03-27
8720
腾讯云上线多模态理解模型 VITA
过去做多模态内容理解,需要依赖多个模型拼接成工作流,如使用视觉分类模型打标签、ASR 模型转写音频、OCR 模型识别文字等,再在末端将各环节结果做汇总。这种"级联式"的问题在于方案复杂、灵活度低、迭代周期长。
腾讯云_内容识别
2026-06-11
5750
Robust多模态模型的开发
本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。
Srlua
2024-11-15
5150
VITA技术解析:原生多模态大模型如何重写内容理解
本文面向多模态业务的开发者与技术决策者,从架构、能力、工程指标三个维度,系统说明 VITA 的技术选择与对应的工程价值。
腾讯云_内容识别
2026-06-12
1190
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券