VITA 3.0 的适用边界如下:
● VITA 是理解类模型,专注于对图片、视频、音频内容的解析与理解
● 不承担文本生成、图像生成、视频生成等内容创作任务
● 长视频建议控制在 30 分钟以内,以保证理解效果
● 在此范围内,单次最高可处理 600MB 视频文件
● 超出建议时长可能影响理解的连续性与准确性
● 当前版本不支持实时视频流的直接处理
● 需要通过预先录制后批量上传的方式提交任务
● 在适用范围内,VITA 3.0 可以稳定承担图片、视频、音频三类内容的端到端理解任务
● 适合作为内容理解类业务的底层模型能力