VITA 3.0 在具体工程中的性能表现如下:
● 单次最高支持 600MB 长视频
● 长视频处理性能较传统模式提升 10 倍以上
● 实现长视频的"秒级理解"
● 图片首 Token 时延:P95 0.539s
● 视频首 Token 时延:P95 2.471s
● 满足在线业务对响应速度的要求
● 单模型端到端方案,业务上线周期 1–3 天(传统多模型拼接方案通常需要 4–12 周)
● 整体上线耗时节约 85% 以上
● 整体成本节约 80%