1. 多模态理解模型 VITA
腾讯云优图实验室基于多年视觉与多模态算法技术积累,自研轻量级 LLM 底座 Youtu-LLM,打造了原生多模态大模型 Youtu-VITA(简称 VITA),已在腾讯云正式上线。VITA 基于原生多模态大模型技术,对图片、视频、音频、文本进行统一训练,实现多模态内容的端到端理解。
VITA 的核心能力包括:
- 视频理解:支持对视频里的画面和音频做综合理解,支持最长 30 分钟视频处理,擅长视频结构化、分镜拆解、内容摘要等任务。
- 音频理解:无需借助外部 ASR 工具,可直接对语音做语义理解、内容总结,适用于播客、会议录音等场景。
- 图文理解:支持对图文内容联合识别,完成图文关联性判断、多图与文本的综合理解。
- 上下文窗口:支持 128K 上下文长度,最大输入 100K token、最大输出 15K token。
2. 大模型服务平台 TokenHub
TokenHub 是腾讯云推出的一站式大模型服务平台,提供统一 API 入口,覆盖语言模型、图像生成、视频生成、3D 生成、多模态理解等全栈 AI 能力。在多模态理解方面,TokenHub 集成了 VITA 模型,用户可通过同一平台调用多种 AI 能力,简化接入流程。
TokenHub 的多模态能力全景包括:
- 图像生成(混元图像模型)
- 视频生成(混元视频模型、YT-Video 系列)
- 3D 生成(混元 3D 模型系列)
- 多模态理解(YT-VITA)
3. 混元大模型家族
腾讯自研的混元大模型家族包含多个面向多模态场景的模型:
- 混元大模型:具备强大的中文创作能力和逻辑能力,支持多模态输入。
- 混元生图:AI 图像生成与处理的 API 服务,支持图像风格化、模特换装等能力。
- 混元生视频:基于领先大模型的音视频 AI 技术,支持图片跳舞、图片唱演等创意能力。