首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ICML 2026 | 一个模型,统一人、物、声、动作:OmniShow把多模态可控视频生成卷成系统工程!

ICML 2026 | 一个模型,统一人、物、声、动作:OmniShow把多模态可控视频生成卷成系统工程!

作者头像
AI生成未来
发布2026-07-03 19:51:03
发布2026-07-03 19:51:03
00
举报

作者:Donghao Zhou等

解读:AI生成未来

OmniShow 论文标题
OmniShow 论文标题

人、物、声、动作——当一段视频需要同时听从这四类指令时,大多数方案的第一反应是"四个模块各管一块,再拼到一起"。OmniShow 偏偏走了另一条路:它把视觉注入、音频对齐、训练范式三件事拧成一个互相咬合的整体,让它们不再是并排的零件,而是同一台机器里彼此驱动的齿轮。这项工作由 The Chinese University of Hong Kong、ByteDance、Monash University 与 The University of Hong Kong 联合完成,已入选 ICML 2026

本篇从一个总览的视角入手:先看清这台"机器"要做什么,再看三大创新如何分工、如何彼此成全,最终合成一个统一的多模态可控视频生成系统。更多视频展示与对比结果,请见项目主页 https://correr-zhou.github.io/OmniShow。

OmniShow 把多类条件收进同一框架,并延展出 audio-driven avatars、object swapping、video remixing 等玩法
OmniShow 把多类条件收进同一框架,并延展出 audio-driven avatars、object swapping、video remixing 等玩法

OmniShow 把多类条件收进同一框架,并延展出 audio-driven avatars、object swapping、video remixing 等玩法

这台机器要解决的,是一道"同时成立"的难题

它面向的任务被称为 Human-Object Interaction Video Generation。一句话概括:在同一段视频里,让四类条件同时成立——text prompt 锚定全局语义与场景,reference images 固定人物身份与物体外观,audio 驱动嘴型、表情与身体节奏,pose 提供逐帧的动作控制。它的意义不在于把画面做得更漂亮,而在于把视频变成一种可以被多条件精确调度的内容资产,直接对应电商带货、短视频口播、数字人讲解与互动娱乐。

难点恰恰在"同时"二字。现有路线各有所长却互不兼容:R2V 守得住 reference appearance,却往往对声音无动于衷;A2V 能被音频驱动,却常常只认首帧、难以同时指定人与物;pose-guided 方法擅长控动作,却在复杂交互下保不住身份与音画同步;一些 HOI 方法还要额外喂 mask、trajectory、depth、bounding box,门槛陡增。把这些子系统级联起来,既臃肿又容易在交界处崩坏。OmniShow 的判断很直接:与其拼装,不如让一个模型在一个 end-to-end 框架里学会协同。

它把"统一"路上的障碍归成三类——可控性与画质难两全、完整数据极稀缺、缺少系统化评测,并在 Waver 1.0(一个 12B MMDiT 视频生成模型)之上,用三条主线逐一拆解。读懂全局的钥匙只有一条原则:不破坏 base model 的生成先验,把每一种条件放到它最合适的位置。

OmniShow 完整 Pipeline:视觉条件注入、音频局部对齐、分阶段联合训练三者环环相扣
OmniShow 完整 Pipeline:视觉条件注入、音频局部对齐、分阶段联合训练三者环环相扣

OmniShow 完整 Pipeline:视觉条件注入、音频局部对齐、分阶段联合训练三者环环相扣

齿轮一:视觉条件,顺着原生接口长出来

reference images 与 pose 同属视觉信号,但分工不同——前者是外观的锚点,后者是逐帧的运动约束。OmniShow 复用 Waver 1.0 原生的 channel-concat 机制把两者统一接入:经 VAE 编码后,在 temporal 维度新增 pseudo-frame tokens 专门承载 reference,pose 则与 noisy video tokens 对齐。如此一来,模型面对的输入形式与原生 I2V 几乎一致,task adaptation gap 被压到极小。在此之上再补一道 Reference Reconstruction Loss:pseudo-frame tokens 由同 timestep 加噪的 reference tokens 初始化,并被要求重建其语义细节,"保真"由此从被动约束变成模型主动追求的目标。

沿用原生 channel-concat 接口,把 reference images 与 pose 顺势纳入,而非另起炉灶
沿用原生 channel-concat 接口,把 reference images 与 pose 顺势纳入,而非另起炉灶

沿用原生 channel-concat 接口,把 reference images 与 pose 顺势纳入,而非另起炉灶

齿轮二:音频条件,单独配一套局部对齐

声音是连续且含节奏的模态,硬塞进 channel 必然丢同步。OmniShow 为它专门设计了 Gated Local-Context Attention:先用 Wav2Vec 2.0 融合多层特征,再以 sliding window(window=5、stride=4)对齐到视频 fps,masked attention 则约束每个 latent frame 只 attend 对应的局部 audio tokens,建立起严格的 frame-wise 音画对应。配套的 Adaptive Gating 把 gating vector 初始化为 near-zero,让音频的影响稳健生长而不至于一上来就扰乱画面。

Adaptive Gating 显示音频信号在各模块的影响强弱,进而指导高效注入
Adaptive Gating 显示音频信号在各模块的影响强弱,进而指导高效注入

Adaptive Gating 显示音频信号在各模块的影响强弱,进而指导高效注入

更妙的是,gating vector 顺便当了一把"探针":通过观察 gate norm,团队发现音频影响集中在 dual-stream blocks,于是只在这些层注入。代价极低——模型仅增约 2.5%,合计 12.3B;作为对比,HuMo 为音频付出了 +21.4%、体量达 17B。

齿轮三:训练范式,让"专才"先成形再融合

完整 HOIVG 样本极其稀缺——一条样本要同时满足 text、reference images、audio、pose 与目标视频的质量,几乎可遇不可求。OmniShow 因此构建了多层异构数据流程,把 R2V、A2V、RA2V、RAP2V 等碎片数据都盘活:从大规模 human-centric 视频池出发,经 shot segmentation 切分,再按分辨率、美学、运动强度、OCR 等维度层层过滤。

从视频切分到多维过滤,最终组织出多类异构训练素材
从视频切分到多维过滤,最终组织出多类异构训练素材

从视频切分到多维过滤,最终组织出多类异构训练素材

训练采用 Decoupled-Then-Joint Training:先分别训练 R2V 与 A2V 两个 specialists,再用 weight interpolation 合并(audio 模块取自 A2V,其余按 A2V/R2V = 0.6/0.4 融合),随后在完整 RA2V 上继续训练,pose 留到最后引入。一个出人意料的现象是:仅靠合并,模型在尚未显式训练 RA2V 之前,就已涌现出 joint reference-audio 能力——可控性竟可以通过 weight merging 自发出现。

专家模型合并后,未经 RA2V 专门训练即展现出 joint reference-audio 生成能力
专家模型合并后,未经 RA2V 专门训练即展现出 joint reference-audio 生成能力

专家模型合并后,未经 RA2V 专门训练即展现出 joint reference-audio 生成能力

第四块拼图:把"评测"也补进系统

要证明三个齿轮真的协同,而非彼此拖累,就需要一把统一的尺子。团队为此构建了 HOIVG-Bench:135 个精选样本,每个都配齐 detailed caption、人物与物体 reference、语义对齐的 audio 与 coherent pose,从 Text Alignment、Reference Consistency、Pose Accuracy、Audio-Visual Synchronization、Video Quality 五个维度打分,专门照出"pose 准但身份漂、嘴型对但商品变形"这类偏科。

HOIVG-Bench 的统计分布与样例,覆盖多条件输入
HOIVG-Bench 的统计分布与样例,覆盖多条件输入

HOIVG-Bench 的统计分布与样例,覆盖多条件输入

三个齿轮咬合后,成绩说话

定性来看,OmniShow 在各种条件组合下都能保持稳定的形象、自然的动作与贴合的音画,这正是"协同"而非"妥协"的直观表现。

多种条件组合下的定性对比,形象、动作与音画同步均保持稳定
多种条件组合下的定性对比,形象、动作与音画同步均保持稳定

多种条件组合下的定性对比,形象、动作与音画同步均保持稳定

定量结果分三种设置来看。R2V 设置下,NexusScore 0.389 超过 VACE(0.368)与 Phantom-14B(0.366)居首,FaceSim 0.874 紧贴体量更大的 Phantom-14B(0.876),并在 AES 0.468、VQ 11.12、MQ 5.885 三项拿下第一。RA2V 设置下,Sync-C 8.612、Sync-D 7.608 双双领先 HuMo-17B 的 8.013/8.316,FaceSim 0.810、NexusScore 0.369、AES 0.465、VQ 10.86、MQ 5.554 全面占优——加入音频后,音画同步、人物与商品的一致性、画质三者同时提升。RP2V 设置下,AKD 降至 0.174、PCK 升到 0.460,动作控制精度明显优于 VACE(0.206/0.336),NexusScore 0.418、VQ 10.28 同样保持领先。而这一切都出自一个仅 12.3B 的模型,音频模块只多花约 **2.5%**——这正是"系统协同"带来的性价比。

HOIVG-Bench 主实验结果,覆盖 R2V、RA2V、RP2V 等条件设置
HOIVG-Bench 主实验结果,覆盖 R2V、RA2V、RP2V 等条件设置

HOIVG-Bench 主实验结果,覆盖 R2V、RA2V、RP2V 等条件设置

值得一提的是,被纳入统一框架并未削弱单项专才。在专评音频驱动的 EMTD benchmark 上,OmniShow-A2V 取得 Sync-C 6.49、AES 1.51,IQA 2.26 仅次于 Hallo3——"先把专才做强,再合进系统"这条路径,没有牺牲音频驱动本身的能力。

OmniShow-A2V 在 EMTD benchmark 上的结果,印证 audio-driven 能力依旧扎实
OmniShow-A2V 在 EMTD benchmark 上的结果,印证 audio-driven 能力依旧扎实

OmniShow-A2V 在 EMTD benchmark 上的结果,印证 audio-driven 能力依旧扎实

一个系统,能延展成多少种玩法

因为四类条件被收进同一框架且互不打架,它们便能自由组合:人物 reference 配 audio,做成 audio-driven avatar;物体 reference 配 pose,实现 object swapping;把人、物、声、动作重新拼装,则得到 video remixing。

统一框架延展出 audio-driven avatars、object swapping、video remixing 等更广泛应用
统一框架延展出 audio-driven avatars、object swapping、video remixing 等更广泛应用

统一框架延展出 audio-driven avatars、object swapping、video remixing 等更广泛应用

三大创新看似各守一摊,实则共享同一种工程哲学:理解基座、顺势扩展、把每个条件放对位置,再让它们彼此咬合成一个整体。当多模态可控视频生成从"加分项"变成内容生产的刚需,真正稀缺的从来不是又一个单点模型,而是一台能把人、物、声、动作同时接住、并让它们协同运转的机器——OmniShow 给出的,正是这样一个完整的系统答案。

参考文献

[1] OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 这台机器要解决的,是一道"同时成立"的难题
  • 齿轮一:视觉条件,顺着原生接口长出来
  • 齿轮二:音频条件,单独配一套局部对齐
  • 齿轮三:训练范式,让"专才"先成形再融合
  • 第四块拼图:把"评测"也补进系统
  • 三个齿轮咬合后,成绩说话
  • 一个系统,能延展成多少种玩法
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档