谷歌深夜放出「创世引擎」Genie 3！一句话秒生宇宙，终极模拟器觉醒

新智元报道

编辑：桃子好困

【新智元导读】老黄曾预言，每个像素都将由AI生成！刚刚，谷歌DeepMind放出的「通用世界模型」Genie 3，一句话即生720p实时模拟世界，1分钟视觉记忆一致性超高。

全球最强「世界AI模拟器」今夜诞生！

刚刚，谷歌DeepMind祭出新一代通用世界模型——Genie 3，能模拟出史无前例的丰富交互环境。

一句话，Genie 3即可生成一个动态世界。

令人惊艳的是，它能以每秒20-24帧速度，实时生成720p画面，还能持续数分钟一致性。

相比于前代，Genie 3在生成时长方面也得到了史诗级的加强——一口气能搞定长达数分钟，且内容连贯的可交互世界。

英伟达Jim Fan高度评价，「这就是游戏引擎2.0时代」！

总有一天，UE5所有复杂功能，都能被一个数据驱动的「注意力权重」吸纳。

未来，只需要将手柄指令作为输入，即可渲染一段时空中的像素画面。

如今，Genie 3的问世，标志着世界模拟AI迈向了全新高度，加速了人类通向AGI/ASI的终极目标。

AI实时交互模拟，真·矩阵世界

一直以来，「世界模型」被业界看作是通往AGI道路上的关键基石。

因为，它能让AI智能体在无限丰富的模拟环境中接受训练。

十多年来，谷歌DeepMind一直在模拟环境领域引领前沿研究，从训练AI智能体玩转即时战略游戏，到为开放式学习和机器人技术开发模拟环境。

正是在这些研究的推动下，他们开发出了「世界模型」。

它能够利用其对世界的理解，来模拟世界的方方面面，从而让AI智能体可以预测环境如何演变，以及自身行为带来的影响。

去年，谷歌DeepMind首次放出世界模型——Genie 1和Genie 2，它们能为AI智能体生成全新的环境。

此外，Veo 2、Veo 3模型相继迭代，也在不断突破视频生成的技术前沿，能够深刻理解物理世界的规律。

每一款模型，都标志着世界模拟在不同能力维度上的进步。

而Genie 3，是谷歌DeepMind首个支持「实时交互」的世界模型。

相较于Genie 2，一致性和真实感均有提升。

谷歌DeepMind研究员Ali Eslami惊叹道，Genie 3绝对是自ChatGPT以来最令人印象深刻的演示。

2016年，他曾研究「神经表示与渲染」隐约看到通往这一目标路径，但没想到这一天来得这么快。

Hassabis同样感慨道，上世纪90年代，当自己设计模拟游戏时，曾梦想有一天实现这一技术。如今，愿望终于达成。

接下来，具体看看Genie 3具备哪些强大能力？

· 模拟物理世界

理解物理世界，是任何一个世界模型必备能力。

Genie 3不仅可以生成水流、光照等自然现象，还能与复杂环境进行交互。

左右滑动查看

· 模拟自然世界

Genie 3还可以生成充满生命力的自然系统，不论是错综复杂的森林、花草等植物，还是各种生物，都能让人仿佛置身于真实生态之中。

左右滑动查看

· 创建动画奇幻世界

不仅如此，Genie 3的想象力也没有边界。

它能创造出奇幻场景，以及富有表现力的动画角色，比如彩虹桥上的卡通狐狸、森林中的萤火虫等等。

左右滑动查看

· 探索地点与历史场景

更令人想不到的是，Genie 3还能玩穿越。

不论是重现古代文明的辉煌，还是探索不同的地方，它都能带你跨越时空，体验景点的独特魅力。

左右滑动查看

不得不说，Genie 3的实时交互能力，令人叹为观止。

那么，谷歌DeepMind是如何具体实现的呢？

一分钟视觉记忆，Genie 3涌现了

要实现Genie 3的实时交互与长时程一致性，技术团队攻克了诸多难题。

在自回归地生成每一帧画面的过程中，模型必须考虑到随时间推移而不断延长的先前轨迹。

举个栗子，当玩家在一分钟后重访某个地点时，模型必须调取一分钟前的相关信息。

为了实现实时交互，这种计算必须在新用户输入抵达时每秒执行多次，以做出即时响应。

此外，要让AI生成的世界富有沉浸感，就必须在很长的时间跨度内保持物理上的一致性。

然而，自回归地生成一个环境，通常比一次性生成整个视频的技术难度更大，因为微小误差会随时间累积。

尽管面临这一挑战，Genie 3生成的环境仍能在数分钟内基本保持一致，其视觉记忆最远可追溯到一分钟前。

左右滑动查看

如下图可见，建筑左侧的树木在交互过程中始终如一，即使时隐时现也保持稳定。

Genie 3的一致性是一种涌现能力。

NeRFs和高斯溅射（Gaussian Splatting）虽然也能实现一致的可导航3D环境，但它们依赖于提供显式的3D表征。

相比之下，Genie 3 生成的世界则远为动态和丰富，因为它们是模型根据世界描述和用户行为逐帧创造出来的。

一句话，一个世界

除了导航输入，Genie 3还支持一种更具表现力的文本交互形式，团队称之为「由提示词驱动的世界事件」。

直白讲，一句话生成世界。

不论是改变天气，还是引入新物体或角色，这种能力大幅提升了沉浸感。

与此同时，它也拓展了反事实（即what if）场景的广度，可供 AI 智能体在经验学习中用于处理各种意外情况。

比如，在北美大草原上，你可以让Genie 3即时生成一辆绿色拖拉机、一位骑马的人；在滑雪场景中，生成一个衣服上印有「Genie 3」的人，或是一个香蕉滑翔伞；在伦敦街景中，还可以空降Dragon。

左右滑动查看

智能体「试炼场」

为了验证Genie 3所创世界，对未来AI智能体训练的兼容性，团队为新版SIMA智能体生成了多个世界。

在每个世界中，都指示该智能体去达成一系列特定目标。

它会通过向Genie 3发送导航指令，来尝试完成任务。假设让它走向和面机和面包架，Genie 3都能指示智能体去完成目标。

左右滑动查看

与所有其他环境一样，Genie 3并不知道智能体的目标，它只是根据智能体的行为来模拟世界的未来走向。

由于Genie 3能够保持一致性的能力，现在可以执行更长的动作序列，以实现更复杂的目标。

左右滑动查看

局限性

尽管Genie 3拓展了世界模型的能力边界，但也存在一定的局限性，具体包含以下5点：

有限的动作空间

虽然由「提示词驱动的世界事件」允许广泛的环境干预，但这些干预不一定由AI智能体自身执行。AI智能体目前能直接执行的动作范围仍然有限。

与其他智能体的交互和模拟

在共享环境中精确模拟多个独立智能体之间的复杂互动，仍是研究领域的一大挑战。

真实世界位置的准确表征

Genie 3 目前还无法以完美的地理精度模拟真实世界的地点。

文本渲染

通常只有在输入的世界描述中提供了文本信息时，模型才能生成清晰易读的文字。

有限的交互时长

模型目前可支持数分钟的连续交互，而非长达数小时的持续互动。

世界模型，分水岭已至

尽管如此，Genie 3是世界模型发展的一个重要里程碑。

它能为教育和培训创造新机遇，帮助学生学习、助力专家积累经验。

它不仅能为机器人和自主系统等 AI 智能体提供广阔的训练空间，还能用于评估智能体的性能并探究其弱点。

在迈向AGI征途中，Genie 3描绘了一个由AI加持，充满交互与创意的世界，一个世界模型全新的未来。

再次狙击Genie 3之后，OpenAI团队Steven Heidel献上彩虹屁，「真是一个见证AGI时刻」。

神仙打架的好戏，正式开演。

（文：新智元）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

新智元报道

【新智元导读】老黄曾预言，每个像素都将由AI生成！刚刚，谷歌DeepMind放出的「通用世界模型」Genie 3，一句话即生720p实时模拟世界，1分钟视觉记忆一致性超高。

发表评论 取消回复

发表评论取消回复