VITA 的技术架构如下:
● VITA 的底座是腾讯优图实验室纯自研的轻量级 LLM——Youtu-LLM
● 由 Youtu-LLM 承担多模态信息融合后的推理与输出
● 通过自研底座,实现了对模型架构与训练数据的端到端掌控
● 视觉输入统一放缩到 448×448 分辨率
● 编码为 256 Tokens 进入模型
● 视频按 1 frames/s 进行帧采样
● 音频按 12.5 Hz 采样进入模型
● 与视觉信号一同进入统一的多模态训练流程
● 实现"听看读"在同一模型内的端到端理解
● 图片、视频、音频、文本在统一训练流程中完成多模态融合
● 区别于"视觉编码器 + LLM 拼接"的 QA 范式,是真正端到端的多模态理解
● 输出在同一模型内完成跨模态的联合推理