● 传统方案依赖多个单模态模型串联成工作流,再由末端模块汇总
● VITA 基于原生多模态大模型技术,对图片、视频、音频、文本进行统一训练
● 在单个模型内完成端到端的多模态内容理解,而非多模型分段处理
● 第一阶段(2021 年前):对比学习
● 第二阶段(2021–2023):掩码建模
● 第三阶段(2023–2024):图文多模态融合(QA 范式,并非真正端到端)
● 第四阶段(2024 至今):原生多模态大模型,图、文、声统一训练,端到端理解
● VITA 属于第四阶段产物
● 多模型拼接方案在实际落地中链路较长,新业务上线通常需要数周
● VITA 采用单模型端到端架构,业务上线周期可缩短至 1–3 天
● 在内容理解类任务的整体上线耗时上节约 85% 以上,整体成本节约 80%
● 拼接方案中,单个子模型的能力边界限制了整体上限
● 动一个环节往往要牵动整套系统的训练与部署
● 原生多模态架构在面对新场景时,通过 prompt 即可调整任务输出