首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Genie 3:实时交互世界模型的技术突破

Genie 3:实时交互世界模型的技术突破

原创
作者头像
用户11764306
发布2026-05-28 08:06:23
发布2026-05-28 08:06:23
1290
举报

Genie 3:世界模型的新前沿

2025年8月5日

作者:Jack Parker-Holder 和 Shlomi Fruchter

今日宣布推出 Genie 3,这是一个通用世界模型,能够生成前所未有多样性的可交互环境。

给定一段文本提示,Genie 3 可生成动态世界,用户可以实时以每秒24帧的速度在其中导航,并在720p分辨率下保持数分钟的一致性。

迈向世界模拟

过去十余年间,某机构一直率先开展模拟环境的研究,从训练智能体掌握实时策略游戏,到为开放式学习和机器人技术开发模拟环境。这项工作推动了世界模型的发展——这类AI系统能够利用其对世界的理解来模拟世界的各个方面,从而使智能体能够预测环境将如何演变以及其行为将如何影响环境。

世界模型也是通往AGI道路上的关键基石,因为它使得在丰富模拟环境的无限课程中训练AI智能体成为可能。去年,团队推出了首批基础世界模型 Genie 1 和 Genie 2,它们能够为智能体生成新环境。同时,通过 Veo 2 和 Veo 3 模型,在视频生成领域也持续推动了技术前沿,这些模型展现了对直观物理学的深刻理解。

上述每个模型都在世界模拟的不同能力上取得了进展。Genie 3 是首个允许实时交互的世界模型,同时相较于 Genie 2 在一致性和真实感方面也有提升。

能力

Genie 3 的能力包括:

模拟世界的物理属性

体验水、光照等自然现象以及复杂的环境交互。

模拟自然世界

生成充满活力的生态系统,从动物行为到复杂的植物生命。

模拟动画与虚构

激发想象力,创造奇幻场景和富有表现力的动画角色。

探索地点与历史场景

超越地理和时间的界限,探索不同地点和过往时代。

推动实时能力的前沿

在 Genie 3 中实现高程度的可控性和实时交互性需要重大的技术突破。在每一帧的自回归生成过程中,模型必须考虑随时间增长而生成的先前轨迹。例如,如果用户在一分钟后重新访问某个位置,模型必须回溯一分钟前的相关信息。为实现实时交互,该计算必须根据到达的新用户输入,每秒执行多次。

长时程环境一致性

为了使AI生成的世界具有沉浸感,它们必须在长时间内保持物理一致性。然而,自回归生成环境通常比生成整个视频更具技术挑战性,因为不准确性会随时间累积。尽管面临挑战,Genie 3 生成的环境在数分钟内基本保持一致,视觉记忆可回溯至一分钟前。

Genie 3 的一致性是一种涌现能力。NeRF 和 Gaussian Splatting 等其他方法也允许生成一致的可导航3D环境,但它们依赖于提供显式的3D表示。相比之下,Genie 3 生成的世界更具动态性和丰富性,因为它们是逐帧基于世界描述和用户行为创建的。

可提示的世界事件

除了导航输入,Genie 3 还支持一种更具表达力的基于文本的交互形式,称之为“可提示的世界事件”。可提示的世界事件使得改变生成的世界成为可能,例如改变天气条件或引入新物体和角色,从而增强导航控制之外的体验。

这种能力也增加了反事实(即“假设”)场景的广度,可供从经验中学习的智能体用来处理意外情况。

助力具身智能体研究

为了测试 Genie 3 生成的世界对未来智能体训练的兼容性,团队为最新版本的 SIMA 智能体(一个面向3D虚拟环境的通用智能体)生成了多个世界。在每个世界中,指示该智能体追求一组不同的目标,它通过向 Genie 3 发送导航行为来尝试实现这些目标。与其他任何环境一样,Genie 3 并不知晓智能体的目标,而是根据智能体的行为模拟未来。

由于 Genie 3 能够保持一致性,现在可以执行更长的行为序列,实现更复杂的目标。随着向AGI迈进以及智能体在世界中扮演更重要的角色,这项技术预计将发挥关键作用。

局限性

尽管 Genie 3 推动了世界模型的能力边界,但其当前局限性仍需正视:

  • 有限的行为空间:虽然可提示的世界事件允许广泛的环境干预,但这些干预不一定由智能体自身执行。智能体能直接执行的行为范围目前仍受限。
  • 多智能体交互与模拟:在共享环境中准确建模多个独立智能体之间的复杂交互仍是一个 ongoing 的研究挑战。
  • 真实世界地点的精确表示:Genie 3 目前无法以完美地理精度模拟真实世界地点。
  • 文本渲染:清晰可读的文本通常仅在输入世界描述中提供时才能生成。
  • 有限的交互时长:该模型目前支持连续交互数分钟,而非数小时。

责任

团队认为基础技术需要从一开始就深度承诺负责任的开发。Genie 3 的技术创新,尤其是其开放式的实时能力,为安全与责任带来了新的挑战。为了应对这些独特风险并最大化收益,团队与负责任开发与创新团队紧密合作。致力于以放大人类创造力、同时限制意外影响的方式开发业界领先的模型。在继续探索 Genie 潜在应用的同时,将 Genie 3 作为有限研究预览版发布,向一小部分学术研究者和创作者提供早期访问权限。

下一步

Genie 3 被认为是世界模型的一个重要时刻,它将开始影响AI研究和生成式媒体的许多领域。为此,团队正在探索未来如何向更多测试者提供 Genie 3。

Genie 3 可以为教育和培训创造新机遇,帮助学生学习和专家积累经验。它不仅能为训练机器人和自主系统等智能体提供广阔空间,还能用于评估智能体性能并探索其弱点。在每一步,团队都在探索工作的影响,并安全、负责任地开发技术以造福人类。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Genie 3:世界模型的新前沿
    • 迈向世界模拟
    • 能力
      • 模拟世界的物理属性
      • 模拟自然世界
      • 模拟动画与虚构
      • 探索地点与历史场景
    • 推动实时能力的前沿
      • 长时程环境一致性
      • 可提示的世界事件
    • 助力具身智能体研究
    • 局限性
    • 责任
    • 下一步
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档