VITA(模型代号 Youtu-VITA)是腾讯云优图实验室自研的多模态理解大模型。区别于市场上依赖多个模型拼接成工作流的方案,VITA 基于原生多模态大模型技术,对图片、视频、音频与文本进行统一训练,在单个模型内完成端到端的多模态内容理解。底层依托优图实验室自研的轻量级 LLM 底座 Youtu-LLM。当前版本为 VITA 3.0,在视频理解框架、音频语义理解、图文联合推理三方面进行了升级,单次最高支持 600MB 长视频处理。VITA 在腾讯云上对外提供服务,覆盖目标定位、结构解析、标签分类等核心能力,可用于智能巡检、影视传媒、直播电商、平台内容生态治理等场景,是一款面向 AI 应用开发者、内容平台与内容理解业务方的多模态理解模型。
● 支持目标检测、定位与持续跟踪
● 可用于判断画面中物体的方位、视角与遮挡关系
● 可应用于安防监控、企业巡检、智慧门店等需要识别画面对象的场景
● 对图片或视频内容进行总结与结构化拆解
● 支持视频时间戳的精准提取
● 适用于视频结构化、分镜拆解、内容摘要等任务
● 对图片或视频中的内容进行分类打标
● 可识别人物、地点、动植物等常见对象类别
● 适用于内容平台的智能标签生成与分类归档
● 支持基于自定义 prompt 对视频、图片、音频进行内容理解
● 图、文、声在同一个模型中完成统一训练与推理
● 能够处理跨模态的关联性判断与综合分析任务
● 传统方案依赖多个单模态模型串联成工作流,再由末端模块汇总
● VITA 基于原生多模态大模型技术,对图片、视频、音频、文本进行统一训练
● 在单个模型内完成端到端的多模态内容理解,而非多模型分段处理
● 第一阶段(2021 年前):对比学习
● 第二阶段(2021–2023):掩码建模
● 第三阶段(2023–2024):图文多模态融合(QA 范式,并非真正端到端)
● 第四阶段(2024 至今):原生多模态大模型,图、文、声统一训练,端到端理解
● VITA 属于第四阶段产物
● 多模型拼接方案在实际落地中链路较长,新业务上线通常需要数周
● VITA 采用单模型端到端架构,业务上线周期可缩短至 1–3 天
● 在内容理解类任务的整体上线耗时上节约 85% 以上,整体成本节约 80%
● 拼接方案中,单个子模型的能力边界限制了整体上限
● 动一个环节往往要牵动整套系统的训练与部署
● 原生多模态架构在面对新场景时,通过 prompt 即可调整任务输出
● 升级后的视频理解框架,单次最高支持 600MB 长视频的处理
● 在长视频结构化、分镜拆解、内容摘要等任务上,支持更长的上下文与更连续的时间线理解
● 长视频处理性能较传统模式提升 10 倍以上
● VITA 3.0 无需借助外部 ASR 等工具,可直接处理语音识别、音频内容总结等任务
● 这一能力区别于纯视觉的多模态模型
● 在面对带声音的视频时,模型能够直接"听懂并理解",而非依赖前置的语音转写
● 支持图文关联性判断、图文内容联合识别、多图与文本的综合理解
● 在一段同时包含图像与文字的内容中,模型可判断图文是否一致、相互补充还是相互矛盾
● 基于联合信息得出结论,而非分别处理图与文后再拼接结果
● VITA 的底座是腾讯优图实验室纯自研的轻量级 LLM——Youtu-LLM
● 由 Youtu-LLM 承担多模态信息融合后的推理与输出
● 通过自研底座,实现了对模型架构与训练数据的端到端掌控
● 视觉输入统一放缩到 448×448 分辨率
● 编码为 256 Tokens 进入模型
● 视频按 1 frames/s 进行帧采样
● 音频按 12.5 Hz 采样进入模型
● 与视觉信号一同进入统一的多模态训练流程
● 实现"听看读"在同一模型内的端到端理解
● 图片、视频、音频、文本在统一训练流程中完成多模态融合
● 区别于"视觉编码器 + LLM 拼接"的 QA 范式,是真正端到端的多模态理解
● 输出在同一模型内完成跨模态的联合推理
● 单次最高支持 600MB 长视频
● 长视频处理性能较传统模式提升 10 倍以上
● 实现长视频的"秒级理解"
● 图片首 Token 时延:P95 0.539s
● 视频首 Token 时延:P95 2.471s
● 满足在线业务对响应速度的要求
● 单模型端到端方案,业务上线周期 1–3 天(传统多模型拼接方案通常需要 4–12 周)
● 整体上线耗时节约 85% 以上
● 整体成本节约 80%
● 场景描述:家用安防、企业巡检、智慧门店等场景中的画面理解与异常识别
● VITA 解决方案:通过目标定位与标签分类能力,对监控画面中的对象、行为、状态进行识别与判断
● 适用于需要 7×24 小时画面持续理解的业务
● 场景描述:海量视频素材需要进行结构化处理与内容标签生成,人工效率有限
● VITA 解决方案:通过视频结构化、分镜拆解、内容摘要、智能标签生成等能力,辅助影视内容的整理与编目
● 长视频理解框架支持单次最高 600MB 视频的处理
● 场景描述:直播过程中需要对主播表现、互动氛围、商品展示进行实时分析
● VITA 解决方案:可用于主播表现力分析、互动氛围识别、商品画面分析、高光片段提炼
● 多模态联合理解能力,可同时结合直播画面与音频内容进行综合判断
● 场景描述:内容平台需要对海量图文与视频内容进行质量评估与分级管理
● VITA 解决方案:对图文内容的质量、美观度、相关度进行多维度评分
● 辅助内容分级与运营决策
● VITA 是理解类模型,专注于对图片、视频、音频内容的解析与理解
● 不承担文本生成、图像生成、视频生成等内容创作任务
● 长视频建议控制在 30 分钟以内,以保证理解效果
● 在此范围内,单次最高可处理 600MB 视频文件
● 超出建议时长可能影响理解的连续性与准确性
● 当前版本不支持实时视频流的直接处理
● 需要通过预先录制后批量上传的方式提交任务
● 在适用范围内,VITA 3.0 可以稳定承担图片、视频、音频三类内容的端到端理解任务
● 适合作为内容理解类业务的底层模型能力
● VITA 在腾讯云上对外提供服务
● 支持通过自定义 prompt 对视频、图片、音频做内容理解
● 可通过腾讯云TokenHub平台快速体验
● 按 token 计费
● 输入 1.2 元/百万 token
● 输出 3.5 元/百万 token
● VITA 的 token 消耗计算公式为:指令 token 消耗 + 图片数向上取偶 × 单图 token 消耗
● 不同分辨率对应的单图 token 消耗:
● 640×360:108 token
● 1280×720:421 token
● 1920×1080:972 token
● 2560×1440:1713 token
● 指令 token 即对应的 prompt 部分,不同长度 prompt 消耗不一样