Genie 3世界模型：如何生成交互式环境

一切始于一个小小的阻碍。我当时想为一个工作坊快速搭建一个简单的交互场景——没什么复杂的，只是一个角色能移动、世界能以可信的方式响应的微小空间。我不想打开游戏引擎、连接物理系统，然后花一下午追着碰撞体跑。我不断看到 Genie 和”世界模型”的相关内容，就想知道 Genie 3 世界模型 能否承担其中一部分工作。

我是 Dora。我追求的不是最新的东西，而是那种安静的效率——那种能降低心理负担的速度。最近（今年一月）我带着更清晰的思路重走了一遍这段历程。以下是我的主要收获：不是功能列表，而是实际使用世界模型处理小型真实任务时的感受，以及 Genie 风格方法在哪里有所帮助、在哪里会碍事。

什么是世界模型

世界模型是一种习得的模拟器。它不是手动编写规则（重力是这样的，墙壁是那样的），而是训练一个模型来预测场景中接下来会发生什么。如果效果好，它学到的不仅仅是帧的外观，还有让帧随时间推移保持合理性的底层规则。

我喜欢 Ha 和 Schmidhuber 在 World Models 中的原始框架：将世界压缩成紧凑的表示，学习该表示如何变化，并用它来规划或行动。后来的研究将这一思路扩展到了视频领域。模型观看大量视频素材，学习一种内在的物理规律——至少是它能看到的那部分。然后你用动作”戳”这个模型，它预测下一个状态。

这与文本生成视频不同。普通的生成器绘制看似合理的帧，而世界模型试图保留因果关系。如果我按左键，玩家就向左移动；如果球碰到地板，它会以一种与模型所学一致的方式弹起。这种可交互性才是真正的价值所在。模型不只是向你展示一个世界，而是让你活在它习得的规则之中。

在实践中，这种”置身其中”的感觉取决于几个因素：

紧凑的状态空间（让模型能用它思考），
动力学模型（让它知道状态如何变化），
以及一种将你的输入连接到模型动作概念的方式。

Genie 风格的系统旨在同时实现这三点。这就是吸引我的承诺：Genie 3 世界模型能否让我在小型原型中跳过繁琐的连接工作，同时仍能获得可信的行为？

Genie 3 如何构建世界

我在这里用”Genie 3”作为我所看到的新一波 Genie 工作的当前简称。有据可查的基础是 2024 年的论文 Genie: Generative Interactive Environments，其中阐释了核心方法。版本或名称在网上会有所漂移，但机制大体相同。

以下是基于文档和我能复现的内容，用通俗语言描述的要点：

首先，系统学习一套视觉词汇。 原始帧杂乱且维度很高，因此 Genie 训练一个分词器，将视频压缩为离散的 token。这让世界以一种模型可以操作的紧凑代码来”表达”自己。
其次，它学习世界如何运动。 动力学模型根据当前 token 和某种动作概念预测下一个 token。这就是它开始有点像物理的地方。模型不计算质量或力，而是预测一致的运动模式，之所以看起来像物理，是因为它见过太多次了。
第三，它从视频中学习动作。 Genie 并不读取游戏的内部控制，而是通过观看人们在视频中交互的方式（游戏录像很有帮助）来推断一个动作空间。然后在运行时，你的键盘或手柄信号被映射到那个习得的动作空间中。这就像在说一种模型能听懂的方言。
最后，它将 token 逐步解码回你能看到和交互的帧。

这对我有用的地方不在于它的新颖性，而在于所需的工作量。我从一段短片（大约 20 秒）开始，片段里有一个角色在 2D 平台游戏中移动。经过几轮处理——分词、在预训练主干上拟合一个小型动力学头、校准输入映射——我就能推动角色并观察世界的响应。最初几次运行很脆弱。边缘会闪烁；角色偶尔会像幽灵一样穿墙而过。但迭代循环很短：调整、运行、观察。折腾了一个晚上之后，行为稳定到了我可以演示而不必每隔五秒道歉的程度。

有两个小瞬间让我印象深刻：

潜在空间控制更友好。在 token 而非像素层面工作意味着小的改变能产生可预测的效果。我不再花时间追逐逐像素的伪影。
输入映射才是真正的工作。将我的按键操作转换为模型推断的动作空间，需要的试错比我预期的要多。但一旦点通了，那种控制感立刻就来了——就像学会了一块新触控板的灵敏度。

注意事项：你仍然需要与预期行为相匹配的数据。如果你的片段没有展示跳跃，别指望能有流畅的跳跃效果。模型可以产生”幻觉”，但它的幻觉方向会顺着它所学内容的纹理走。

一致性与物理处理

当人们说”感觉很真实”时，他们通常指的是两件事：时间以应有的方式流逝，空间保持完整。Genie 风格的世界模型在这两方面都有所进展，但也有一些特点。

时间一致性

我早期的运行有着你在视频模型中可能见过的同款抖动：物体漂移，然后猛地回弹。当我顺应模型的优势而非与之对抗时，时间一致性得到了改善。更短的推演配合频繁的动作输入给了它更清晰的锚点。试图推进 10 秒钟的自由运行生成，才是接缝开始显现的时候。

在实践中，模型往往能很好地保持短期动量。如果一个球在滚动，它会继续滚；如果一个角色在跳跃途中，弧线会在接下来的十几帧内平滑延续。但在更长的弧线上，尤其是在摄像机平移或遮挡之后，模型可能会丢失线索并另起炉灶。我开始添加轻微的”ping”（每隔几帧输入一个微小的无操作指令），以提醒它时间仍在以可控的方式流逝。这减少了一些闪烁。

还有延迟与稳定性的权衡问题。更快的解码很诱人，但我注意到一个小代价：当我追求速度时，细微的时间抖动悄然出现——几乎看不见，但在你操控时能感觉到。将解码器调整到稍慢、更稳定的设置，让控制循环感觉更扎实。这没有节省我几分钟，但它让我减少了自我怀疑。

空间连贯性

空间连贯性是指事物是否保持在它们应在的位置，以及世界是否尊重自身的布局。碰撞是最明显的测试。对于 Genie 风格的模型，碰撞是习得的，而非编码的。如果墙壁在训练片段中清晰且一致，模型通常会将其视为边界。如果墙壁模糊或不明确，就会出现穿透现象。

简洁、高对比度的场景效果更好。具有干净轮廓的平台游戏比有视差层的繁杂场景产生的边界违规更少。当模型确实破坏了空间——比如让角色滑过一个角落——我找到了两种补救方法：

调整动作空间。有时模型是在服从指令，只是控制力度太大。限制最大输入幅度可以防止它”压制”习得的墙壁。
用关键帧重新定位。每隔几秒喂入一帧真实帧（而非纯自回归），将模型拉回它实际学习的地图。这不够优雅，但管用。

**还有一点需要注意：**摄像机运动。如果摄像机在原始视频中保持静止，模型保持空间的效果会更好。如果摄像机有漂移，模型偶尔会将世界运动与摄像机运动混在一起，导致物体游动。尽量锁定摄像机。

相比传统方法的优势

与在游戏引擎中手工搭建的原型相比，Genie 3 世界模型感觉像是一种交换：我放弃了精确性，换来了速度和灵活性。对于小型实验来说，这是一笔划算的买卖。

更低的搭建成本。 我不需要搭建物理系统或铺设瓦片地图。我输入一段片段，映射好输入，当天结束时就有了可交互的东西。节省的时间在钟表上并不巨大（也许几个小时），但减少的心理负担是实实在在的。更少的决策，更少的兔子洞。
自然的风格迁移。 由于视觉效果和动力学是一起习得的，源片段的”感觉”会随之延续。如果你想要一个阴郁、粗粝的世界，同时还能响应你的输入，这种方法无需做光照处理就能实现。
统一的迭代流程。 调整只在一个地方发生——数据和模型。我不需要在物理面板、着色器和状态机之间来回切换。只有一个反馈循环。

当然，也有局限性。如果你需要像素级精确的碰撞、确定性物理，或者长时间不漂移，传统引擎仍然更胜一筹。如果你的数据没有展示某种行为，模型也不会可靠地将其发明出来。对于生产环境或任何安全关键的应用，我会将世界模型与防护栏搭配使用，或回退到代码实现。

这对我意味着什么：世界模型降低了尝试一个想法的摩擦。不是为了交付它，而是为了看看它是否值得下一步投入。如果你生活在原型世界里，这是一份馈赠。