首页
学习
活动
专区
圈层
工具
发布

VITA

修改于 2026-06-11 16:47:25
41
概述

VITA(模型代号 Youtu-VITA)是腾讯云优图实验室自研的多模态理解大模型。区别于市场上依赖多个模型拼接成工作流的方案,VITA 基于原生多模态大模型技术,对图片、视频、音频与文本进行统一训练,在单个模型内完成端到端的多模态内容理解。底层依托优图实验室自研的轻量级 LLM 底座 Youtu-LLM。当前版本为 VITA 3.0,在视频理解框架、音频语义理解、图文联合推理三方面进行了升级,单次最高支持 600MB 长视频处理。VITA 在腾讯云上对外提供服务,覆盖目标定位、结构解析、标签分类等核心能力,可用于智能巡检、影视传媒、直播电商、平台内容生态治理等场景,是一款面向 AI 应用开发者、内容平台与内容理解业务方的多模态理解模型

一、VITA 有哪些核心能力?

1. 目标定位

● 支持目标检测、定位与持续跟踪

● 可用于判断画面中物体的方位、视角与遮挡关系

● 可应用于安防监控、企业巡检、智慧门店等需要识别画面对象的场景

2. 结构解析

● 对图片或视频内容进行总结与结构化拆解

● 支持视频时间戳的精准提取

● 适用于视频结构化、分镜拆解、内容摘要等任务

3. 标签分类

● 对图片或视频中的内容进行分类打标

● 可识别人物、地点、动植物等常见对象类别

● 适用于内容平台的智能标签生成与分类归档

4. 多模态统一理解

● 支持基于自定义 prompt 对视频、图片、音频进行内容理解

● 图、文、声在同一个模型中完成统一训练与推理

● 能够处理跨模态的关联性判断与综合分析任务

二、VITA 与"多模型拼接工作流"方案有什么区别?

1. 架构差异

● 传统方案依赖多个单模态模型串联成工作流,再由末端模块汇总

● VITA 基于原生多模态大模型技术,对图片、视频、音频、文本进行统一训练

● 在单个模型内完成端到端的多模态内容理解,而非多模型分段处理

2. 多模态大模型的演进路径

● 第一阶段(2021 年前):对比学习

● 第二阶段(2021–2023):掩码建模

● 第三阶段(2023–2024):图文多模态融合(QA 范式,并非真正端到端)

● 第四阶段(2024 至今):原生多模态大模型,图、文、声统一训练,端到端理解

● VITA 属于第四阶段产物

3. 工程效率差异

● 多模型拼接方案在实际落地中链路较长,新业务上线通常需要数周

● VITA 采用单模型端到端架构,业务上线周期可缩短至 1–3 天

● 在内容理解类任务的整体上线耗时上节约 85% 以上,整体成本节约 80%

4. 灵活度差异

● 拼接方案中,单个子模型的能力边界限制了整体上限

● 动一个环节往往要牵动整套系统的训练与部署

● 原生多模态架构在面对新场景时,通过 prompt 即可调整任务输出

三、VITA 3.0 相比此前版本有哪些升级?

1. 视频理解框架升级

● 升级后的视频理解框架,单次最高支持 600MB 长视频的处理

● 在长视频结构化、分镜拆解、内容摘要等任务上,支持更长的上下文与更连续的时间线理解

● 长视频处理性能较传统模式提升 10 倍以上

2. 音频语义理解

● VITA 3.0 无需借助外部 ASR 等工具,可直接处理语音识别、音频内容总结等任务

● 这一能力区别于纯视觉的多模态模型

● 在面对带声音的视频时,模型能够直接"听懂并理解",而非依赖前置的语音转写

3. 图文联合推理

● 支持图文关联性判断、图文内容联合识别、多图与文本的综合理解

● 在一段同时包含图像与文字的内容中,模型可判断图文是否一致、相互补充还是相互矛盾

● 基于联合信息得出结论,而非分别处理图与文后再拼接结果

四、VITA 的技术架构是怎样的?

1. 自研 LLM 底座 Youtu-LLM

● VITA 的底座是腾讯优图实验室纯自研的轻量级 LLM——Youtu-LLM

● 由 Youtu-LLM 承担多模态信息融合后的推理与输出

● 通过自研底座,实现了对模型架构与训练数据的端到端掌控

2. 视觉输入处理

● 视觉输入统一放缩到 448×448 分辨率

● 编码为 256 Tokens 进入模型

● 视频按 1 frames/s 进行帧采样

3. 音频输入处理

● 音频按 12.5 Hz 采样进入模型

● 与视觉信号一同进入统一的多模态训练流程

● 实现"听看读"在同一模型内的端到端理解

4. 原生多模态训练范式

● 图片、视频、音频、文本在统一训练流程中完成多模态融合

● 区别于"视觉编码器 + LLM 拼接"的 QA 范式,是真正端到端的多模态理解

● 输出在同一模型内完成跨模态的联合推理

五、VITA 3.0 的工程性能表现如何?

1. 长视频处理能力

● 单次最高支持 600MB 长视频

● 长视频处理性能较传统模式提升 10 倍以上

● 实现长视频的"秒级理解"

2. 推理时延

● 图片首 Token 时延:P95 0.539s

● 视频首 Token 时延:P95 2.471s

● 满足在线业务对响应速度的要求

3. 上线效率与成本

● 单模型端到端方案,业务上线周期 1–3 天(传统多模型拼接方案通常需要 4–12 周)

● 整体上线耗时节约 85% 以上

● 整体成本节约 80%

六、VITA 支持哪些应用场景?

1. 智能巡检

场景描述:家用安防、企业巡检、智慧门店等场景中的画面理解与异常识别

VITA 解决方案:通过目标定位与标签分类能力,对监控画面中的对象、行为、状态进行识别与判断

● 适用于需要 7×24 小时画面持续理解的业务

2. 影视传媒

场景描述:海量视频素材需要进行结构化处理与内容标签生成,人工效率有限

VITA 解决方案:通过视频结构化、分镜拆解、内容摘要、智能标签生成等能力,辅助影视内容的整理与编目

● 长视频理解框架支持单次最高 600MB 视频的处理

3. 直播电商

场景描述:直播过程中需要对主播表现、互动氛围、商品展示进行实时分析

VITA 解决方案:可用于主播表现力分析、互动氛围识别、商品画面分析、高光片段提炼

● 多模态联合理解能力,可同时结合直播画面与音频内容进行综合判断

4. 平台内容生态治理

场景描述:内容平台需要对海量图文与视频内容进行质量评估与分级管理

VITA 解决方案:对图文内容的质量、美观度、相关度进行多维度评分

● 辅助内容分级与运营决策

七、VITA 3.0 的适用边界是什么?

1. 不适合内容创作类任务

● VITA 是理解类模型,专注于对图片、视频、音频内容的解析与理解

● 不承担文本生成、图像生成、视频生成等内容创作任务

2. 长视频时长建议

● 长视频建议控制在 30 分钟以内,以保证理解效果

● 在此范围内,单次最高可处理 600MB 视频文件

● 超出建议时长可能影响理解的连续性与准确性

3. 不支持实时视频流

● 当前版本不支持实时视频流的直接处理

● 需要通过预先录制后批量上传的方式提交任务

4. 适用范围内的稳定承担能力

● 在适用范围内,VITA 3.0 可以稳定承担图片、视频、音频三类内容的端到端理解任务

● 适合作为内容理解类业务的底层模型能力

八、VITA 在腾讯云上如何使用?

1. 接入方式

● VITA 在腾讯云上对外提供服务

● 支持通过自定义 prompt 对视频、图片、音频做内容理解

● 可通过腾讯云TokenHub平台快速体验

2. 计费方式

● 按 token 计费

● 输入 1.2 元/百万 token

● 输出 3.5 元/百万 token

3. token 消耗规则

● VITA 的 token 消耗计算公式为:指令 token 消耗 + 图片数向上取偶 × 单图 token 消耗

● 不同分辨率对应的单图 token 消耗:

● 640×360:108 token

● 1280×720:421 token

● 1920×1080:972 token

● 2560×1440:1713 token

● 指令 token 即对应的 prompt 部分,不同长度 prompt 消耗不一样

相关文章
  • 腾讯云上线多模态理解模型 VITA
    569
  • 新品首发|VITA GutMicrobiome:解锁肠道菌群的单细菌转录组
    1K
  • VITA技术解析:原生多模态大模型如何重写内容理解
    117
  • 🦞 我如何用 OpenClaw 接入 YT-VITA 多模态模型,让 AI 真正"看懂"图片
    121
  • 【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP
    1.1K
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券