文本通过分词器(Tokenizer)转换为离散 token 序列。主流多模态模型采用与基础语言模型相同的分词方案(如 BPE、WordPiece),确保文本模态与语言模型主干的无缝衔接。
图像首先被切分为固定大小的 patch(如 14×14 像素),每个 patch 通过线性投影或小型网络转换为一个 token,整体形成 patch token 序列。高分辨率图像会产生更长的 token 序列,对上下文窗口提出更高要求。部分模型采用动态分辨率策略,根据图像内容复杂度自适应调整 patch 数量。
视频 token 化面临时序长度和计算成本的双重挑战。主流方案包括:
音频信号首先被转换为频谱图(如梅尔频谱图),再视为"图像"通过视觉编码器处理;或直接通过音频专用编码器(如 Whisper 编码器)转换为 token 序列。原生多模态模型倾向于将音频与其他模态在同一语义空间中统一表示,实现真正的端到端音频理解。