技术百科

搜索技术百科

技术百科

发布

VITA

修改于 2026-06-11 16:47:25

概述

VITA（模型代号 Youtu-VITA）是腾讯云优图实验室自研的多模态理解大模型。区别于市场上依赖多个模型拼接成工作流的方案，VITA 基于原生多模态大模型技术，对图片、视频、音频与文本进行统一训练，在单个模型内完成端到端的多模态内容理解。底层依托优图实验室自研的轻量级 LLM 底座 Youtu-LLM。当前版本为 VITA 3.0，在视频理解框架、音频语义理解、图文联合推理三方面进行了升级，单次最高支持 600MB 长视频处理。VITA 在腾讯云上对外提供服务，覆盖目标定位、结构解析、标签分类等核心能力，可用于智能巡检、影视传媒、直播电商、平台内容生态治理等场景，是一款面向 AI 应用开发者、内容平台与内容理解业务方的多模态理解模型。

一、VITA 有哪些核心能力？

1. 目标定位

● 支持目标检测、定位与持续跟踪

● 可用于判断画面中物体的方位、视角与遮挡关系

● 可应用于安防监控、企业巡检、智慧门店等需要识别画面对象的场景

2. 结构解析

● 对图片或视频内容进行总结与结构化拆解

● 支持视频时间戳的精准提取

● 适用于视频结构化、分镜拆解、内容摘要等任务

3. 标签分类

● 对图片或视频中的内容进行分类打标

● 可识别人物、地点、动植物等常见对象类别

● 适用于内容平台的智能标签生成与分类归档

4. 多模态统一理解

● 支持基于自定义 prompt 对视频、图片、音频进行内容理解

● 图、文、声在同一个模型中完成统一训练与推理

● 能够处理跨模态的关联性判断与综合分析任务

二、VITA 与"多模型拼接工作流"方案有什么区别？

1. 架构差异

● 传统方案依赖多个单模态模型串联成工作流，再由末端模块汇总

● VITA 基于原生多模态大模型技术，对图片、视频、音频、文本进行统一训练

● 在单个模型内完成端到端的多模态内容理解，而非多模型分段处理

2. 多模态大模型的演进路径

● 第一阶段（2021 年前）：对比学习

● 第二阶段（2021–2023）：掩码建模

● 第三阶段（2023–2024）：图文多模态融合（QA 范式，并非真正端到端）

● 第四阶段（2024 至今）：原生多模态大模型，图、文、声统一训练，端到端理解

● VITA 属于第四阶段产物

3. 工程效率差异

● 多模型拼接方案在实际落地中链路较长，新业务上线通常需要数周

● VITA 采用单模型端到端架构，业务上线周期可缩短至 1–3 天

● 在内容理解类任务的整体上线耗时上节约 85% 以上，整体成本节约 80%

4. 灵活度差异

● 拼接方案中，单个子模型的能力边界限制了整体上限

● 动一个环节往往要牵动整套系统的训练与部署

● 原生多模态架构在面对新场景时，通过 prompt 即可调整任务输出

三、VITA 3.0 相比此前版本有哪些升级？

1. 视频理解框架升级

● 升级后的视频理解框架，单次最高支持 600MB 长视频的处理

● 在长视频结构化、分镜拆解、内容摘要等任务上，支持更长的上下文与更连续的时间线理解

● 长视频处理性能较传统模式提升 10 倍以上

2. 音频语义理解

● VITA 3.0 无需借助外部 ASR 等工具，可直接处理语音识别、音频内容总结等任务

● 这一能力区别于纯视觉的多模态模型

● 在面对带声音的视频时，模型能够直接"听懂并理解"，而非依赖前置的语音转写

3. 图文联合推理

● 支持图文关联性判断、图文内容联合识别、多图与文本的综合理解

● 在一段同时包含图像与文字的内容中，模型可判断图文是否一致、相互补充还是相互矛盾

● 基于联合信息得出结论，而非分别处理图与文后再拼接结果

四、VITA 的技术架构是怎样的?

1. 自研 LLM 底座 Youtu-LLM

● VITA 的底座是腾讯优图实验室纯自研的轻量级 LLM——Youtu-LLM

● 由 Youtu-LLM 承担多模态信息融合后的推理与输出

● 通过自研底座，实现了对模型架构与训练数据的端到端掌控

2. 视觉输入处理

● 视觉输入统一放缩到 448×448 分辨率

● 编码为 256 Tokens 进入模型

● 视频按 1 frames/s 进行帧采样

3. 音频输入处理

● 音频按 12.5 Hz 采样进入模型

● 与视觉信号一同进入统一的多模态训练流程

● 实现"听看读"在同一模型内的端到端理解

4. 原生多模态训练范式

● 图片、视频、音频、文本在统一训练流程中完成多模态融合

● 区别于"视觉编码器 + LLM 拼接"的 QA 范式，是真正端到端的多模态理解

● 输出在同一模型内完成跨模态的联合推理

五、VITA 3.0 的工程性能表现如何?

1. 长视频处理能力

● 单次最高支持 600MB 长视频

● 长视频处理性能较传统模式提升 10 倍以上

● 实现长视频的"秒级理解"

2. 推理时延

● 图片首 Token 时延：P95 0.539s

● 视频首 Token 时延：P95 2.471s

● 满足在线业务对响应速度的要求

3. 上线效率与成本

● 单模型端到端方案，业务上线周期 1–3 天（传统多模型拼接方案通常需要 4–12 周）

● 整体上线耗时节约 85% 以上

● 整体成本节约 80%

六、VITA 支持哪些应用场景?

1. 智能巡检

● 场景描述：家用安防、企业巡检、智慧门店等场景中的画面理解与异常识别

● VITA 解决方案：通过目标定位与标签分类能力，对监控画面中的对象、行为、状态进行识别与判断

● 适用于需要 7×24 小时画面持续理解的业务

2. 影视传媒

● 场景描述：海量视频素材需要进行结构化处理与内容标签生成，人工效率有限

● VITA 解决方案：通过视频结构化、分镜拆解、内容摘要、智能标签生成等能力，辅助影视内容的整理与编目

● 长视频理解框架支持单次最高 600MB 视频的处理

3. 直播电商

● 场景描述：直播过程中需要对主播表现、互动氛围、商品展示进行实时分析

● VITA 解决方案：可用于主播表现力分析、互动氛围识别、商品画面分析、高光片段提炼

● 多模态联合理解能力，可同时结合直播画面与音频内容进行综合判断

4. 平台内容生态治理

● 场景描述：内容平台需要对海量图文与视频内容进行质量评估与分级管理

● VITA 解决方案：对图文内容的质量、美观度、相关度进行多维度评分

● 辅助内容分级与运营决策

七、VITA 3.0 的适用边界是什么?

1. 不适合内容创作类任务

● VITA 是理解类模型，专注于对图片、视频、音频内容的解析与理解

● 不承担文本生成、图像生成、视频生成等内容创作任务

2. 长视频时长建议

● 长视频建议控制在 30 分钟以内，以保证理解效果

● 在此范围内，单次最高可处理 600MB 视频文件

● 超出建议时长可能影响理解的连续性与准确性

3. 不支持实时视频流

● 当前版本不支持实时视频流的直接处理

● 需要通过预先录制后批量上传的方式提交任务

4. 适用范围内的稳定承担能力

● 在适用范围内，VITA 3.0 可以稳定承担图片、视频、音频三类内容的端到端理解任务

● 适合作为内容理解类业务的底层模型能力

八、VITA 在腾讯云上如何使用?

1. 接入方式

● VITA 在腾讯云上对外提供服务

● 支持通过自定义 prompt 对视频、图片、音频做内容理解

● 可通过腾讯云TokenHub平台快速体验

2. 计费方式

● 按 token 计费

● 输入 1.2 元/百万 token

● 输出 3.5 元/百万 token

3. token 消耗规则

● VITA 的 token 消耗计算公式为：指令 token 消耗 + 图片数向上取偶 × 单图 token 消耗

● 不同分辨率对应的单图 token 消耗：

● 640×360：108 token

● 1280×720：421 token

● 1920×1080：972 token

● 2560×1440：1713 token

● 指令 token 即对应的 prompt 部分，不同长度 prompt 消耗不一样

词条知识树 (8个知识点)