开发者社区

文档建议反馈控制台

技术百科

搜索技术百科

技术百科

发布

技术百科首页 >多模态理解模型 >多模态理解模型如何处理不同模态的 token 化？

多模态理解模型如何处理不同模态的 token 化？

修改于 2026-06-15 11:51:14

2

词条归属：多模态理解模型

1. 文本 token 化

文本通过分词器（Tokenizer）转换为离散 token 序列。主流多模态模型采用与基础语言模型相同的分词方案（如 BPE、WordPiece），确保文本模态与语言模型主干的无缝衔接。

2. 图像 token 化

图像首先被切分为固定大小的 patch（如 14×14 像素），每个 patch 通过线性投影或小型网络转换为一个 token，整体形成 patch token 序列。高分辨率图像会产生更长的 token 序列，对上下文窗口提出更高要求。部分模型采用动态分辨率策略，根据图像内容复杂度自适应调整 patch 数量。

3. 视频 token 化

视频 token 化面临时序长度和计算成本的双重挑战。主流方案包括：

稀疏采样：从整个视频中均匀或自适应地抽取若干关键帧，将每帧作为图像处理；
时序压缩：通过 3D 卷积或时序注意力机制，在保留关键时序信息的同时压缩 token 数量；
长视频分段：将长视频切分为多个片段分别处理，再通过跨段注意力或摘要机制整合全局信息。

4. 音频 token 化

音频信号首先被转换为频谱图（如梅尔频谱图），再视为"图像"通过视觉编码器处理；或直接通过音频专用编码器（如 Whisper 编码器）转换为 token 序列。原生多模态模型倾向于将音频与其他模态在同一语义空间中统一表示，实现真正的端到端音频理解。

相关文章

多模态理解模型的Token消耗优化策略

视频音频优化 token 模型

摘要：多模态理解模型按Token消耗量计费，优化Token使用是控制成本的关键。本文基于VITA多模态理解模型的Token消耗规则，从输入素材准备、指令编写、调用策略三个维度，提供可操作的优化建议。

2026-06-18

20

聊聊多模态大模型处理的思考

语音语音合成开源 embedding 模型

多模态：文本、音频、视频、图像等多形态的展现形式。目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下，审视下多模态大模型的实现方式。首先就要区分输入与输出，即输入的模态与输出的模态。从目前来看，模型的输出大多都是文本，模型的输入一般是图片/文本；但少数的大模型比如QWen、讯飞星火等支持语音的输入。

2024-03-27

8720

腾讯云上线多模态理解模型 VITA

内容识别内容理解视频理解图像理解

过去做多模态内容理解，需要依赖多个模型拼接成工作流，如使用视觉分类模型打标签、ASR 模型转写音频、OCR 模型识别文字等，再在末端将各环节结果做汇总。这种"级联式"的问题在于方案复杂、灵活度低、迭代周期长。

腾讯云_内容识别

2026-06-11

5750

Robust多模态模型的开发

开发模型视频数据性能

本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。

2024-11-15

5150

VITA技术解析：原生多模态大模型如何重写内容理解

图像理解视频理解 prompt 内容理解内容识别

本文面向多模态业务的开发者与技术决策者，从架构、能力、工程指标三个维度，系统说明 VITA 的技术选择与对应的工程价值。

腾讯云_内容识别

2026-06-12

1190

点击加载更多