VITA 3.0 相比此前版本的升级如下:
● 升级后的视频理解框架,单次最高支持 600MB 长视频的处理
● 在长视频结构化、分镜拆解、内容摘要等任务上,支持更长的上下文与更连续的时间线理解
● 长视频处理性能较传统模式提升 10 倍以上
● VITA 3.0 无需借助外部 ASR 等工具,可直接处理语音识别、音频内容总结等任务
● 这一能力区别于纯视觉的多模态模型
● 在面对带声音的视频时,模型能够直接"听懂并理解",而非依赖前置的语音转写
● 支持图文关联性判断、图文内容联合识别、多图与文本的综合理解
● 在一段同时包含图像与文字的内容中,模型可判断图文是否一致、相互补充还是相互矛盾
● 基于联合信息得出结论,而非分别处理图与文后再拼接结果