Genie 3 提示词:撰写高效的世界描述
基于演示分析和世界模型原理,指导如何为 Genie 3 撰写有效的提示词。
嗨,我是 Dora。2026 年 1 月下旬,我在测试一个 Genie 3 版本时,反复得到那种飘忽、没有物理约束感的世界——第一帧画面很美,但物理效果像梦境一样失真。我的提示词在脑子里听起来没问题,但输出总是跑偏。门打不开。重力忘了自己的存在。
于是我放慢了节奏,开始把提示词当成一份简短、朴实的规格说明来写,而不是诗句。这样做之后,生成的世界开始变得连贯。不完美,但更稳定。这就是我现在写 Genie 3 提示词的方式,都是在真实任务中实际有效的经验。
世界模型的提示词结构
我不再写华丽的提示词,转而写那种简单、枯燥的——就像队友能快速扫一眼就能上手的规格说明。世界模型对这种方式反应良好。我的基础框架包含四个部分:
- 场景:地点与时间。要具体。用”傍晚时分的狭窄小巷”,而不是”神秘的都市氛围”。
- 动态:什么在动、怎么动。明确说出力、约束条件和触发因素。
- 主体:谁在行动或什么在行动。第一人称视角还是侧视角?人类还是物体?有哪些能力?
- 目标/可交互性:这里能做什么。门可以开,拉杆可以拉,梯子可以爬。
我把这些写成一到三句话,再加一行约束条件。就这些。写得越长,通常越容易出现矛盾(而模型会选错那个)。
我反复复用的一种结构:
- 第一句:具体的地点 + 时间 + 光线。
- 第二句:可控主体 + 摄像机 + 动作动词。
- 第三句:关键交互及其结果。
- 约束行:1–3 条简短约束(物理、摄像机、节奏)。
为什么这很重要:世界模型不只是绘图,它在模拟规律。如果你同时说”快”和”平稳”,等于要求两种不同的节奏。如果你不说重力方向,模型就会猜。减少歧义能帮助模型选取稳定的默认值。
想深入了解 Google Genie 3 如何模拟这些规律及更多内容,可以查看我们的详细文章:What Is Google Genie 3?
告诉我结构有效的信号:
- 同一种子生成 3–5 次后,摄像机抖动明显减少
- 物体从帧到帧保持质感(杯子不再漂浮)
- 交互在 6 秒内完成,而不是拖拖拉拉地持续 15 秒
如果场景持续不稳定,我会先删掉形容词,而不是加更多。越简单,通常越好。
环境描述技巧
为世界模型描述环境,和给单张图片写风格说明是不同的。以下几点让我收效更好:
- 用两三个硬质表面锚定空间。“湿滑的鹅卵石地面、左右两侧的砖墙、尽头的金属门。“硬质表面能暗示接触、反射和摩擦。
- 明确说出可交互性。如果拉杆应该被拉动,就写”胸口高度的可拉式拉杆”。如果门应该向内开,就说明合页在哪一侧。
- 用人体尺度设定比例。“齐膝的路缘石”、“腰高的栏杆”、“卡车宽的小巷”。模型会把运动贴合到这些锚点上。
- 给出一个光源及其方向。“门上方的霓虹灯牌,紫色漫射光从左向右。“这减少了阴影闪烁,并帮助摄像机不再四处寻找兴趣点。
- 将杂物定义为区域,而不是列表。“右侧墙边堆放的板条箱”比逐一列举每件物品效果更好。名词太多会让场景变得嘈杂,却不增加有用的行为。
遇到的阻力:
- 材质描述模糊会导致物理效果变”滑”。写”地板”让角色像在溜冰;写”橡胶健身垫”就有了摩擦力。
- 布局过度拥挤会干扰路径。当我把六件道具塞进一个小房间时,主体在角落附近会犹豫。
- 只写时间而不说光线方向没什么用。单写”早晨”很少能稳定阴影。
当场景仍感觉不扎实时,我会加一个物理线索(比如”风从左向右吹”或”细雨,可见水花”)。这种小小的物理线索对连贯性的提升,远比多加几个风格词更有效。
风格与美学控制
风格很诱人,总让人想先着手处理。我尽量把它留到最后。等世界的行为稳定了,再去调整外观:
- 用一个风格锚点,而不是三个。“1990 年代 DV 画质”或”柔和的胶片颗粒感”。叠加”电影感、复古、粗粝”会让运动变得模糊。
- 把风格与物理挂钩,而不只是颜色。“手持摄像,带轻微肩膀晃动”既是一种风格,也设定了摄像机行为。
- 只在必要时提及等效焦距。“28mm 广角”有时在近景空间里有帮助,但镜头描述可能会压制运动线索。
- 用动词描述质感,而不是形容词。“尘埃微粒在一束阳光中漂浮”胜过”梦幻、朦胧、空灵”。动词给了模型可以动画化的东西。
与 Runway 的 Gen-3 等纯视频模型相比,我注意到世界模型提示词对动作和可交互性的反应比对纯外观要强烈得多。如果你之前用的是 Gen-3,可能需要减少风格描述,增加空间与动作的描写。
当风格与行为产生冲突时,我会先去掉风格描述。一个朴实但可信的场景,胜过一个美丽却飘忽的场景。
10 个提示词示例分析
以下是我实际使用的或接近的 Genie 3 提示词。我在 2026 年 1 月下旬每个运行了 3–5 次,每次只调整一个变量。我会展示提示词以及实际发生的变化。
写实场景
- “傍晚时分的狭窄小巷,湿滑的鹅卵石地面,左右两侧是砖墙。第一人称步行速度,朝着闪烁霓虹灯牌下的金属门走去。伸手握住把手,向内推开门。“约束:稳定手持,细雨,重力向下。
**结果:**门在约 4–6 秒内可靠地打开。细雨有助于呈现摩擦感:脚步不再打滑。如果没有”向内推”,门有时会往反方向开。
- “深夜的小厨房,头顶荧光灯嗡嗡作响。第三人称,腰部高度摄像机跟随一个人端着冒热气的马克杯走向木桌。将杯子放下:轻微水花:蒸汽袅袅升起。“约束:不推镜头,轻柔碰撞声,阴影稳定。
**结果:**蒸汽和轻微水花在 5 次中的 4 次出现。如果忘记写”木桌”,杯子在光滑表面上会稍微滑动。材质命名很重要。
- “非高峰时段的地铁站台,冷白色灯光。侧视角,一名通勤者跨过黄色安全线,停下,再退回来。“约束:匀速,无跳切。
**结果:**清晰呈现了跨线-纠正的动作。当我去掉”停下,再退回来”时,模型自行发挥——挥手或查手机,合理,但不是重点。
- “铺有地毯的办公室走廊,右侧是玻璃墙。第一人称慢跑到一扇密码门:手输入密码:门咔哒一声打开。“约束:轻微呼吸声,腕部高度的密码键盘,重力向下。
**结果:**加上”腕部高度的密码键盘”效果最好。没有这个描述,手会向上飘。呼吸声(哪怕只是一个词)能调整节奏感,帮助避免机械感的动作。
- “停车场,低矮天花板,光滑混凝土地面。第三人称,一只滚动的行李箱碰到减速带,摇晃,然后恢复稳定。“约束:固定摄像机,轻微回声,反射一致。
**结果:**只有当我写了”碰到减速带”,摇晃效果才出现。如果我写”越过一个凸起”,车轮晃动往往就消失了。带有接触线索的动词很有效。
风格化环境
- “正午时分的横版纸板立体模型城市。纸板建筑,用滑轮悬挂的彩绘云朵。一个剪纸角色跑过去拉动一根红色拉杆:一座吊桥随之降下。“约束:视差层次,边缘清晰,重力向下。
**结果:**拉杆-吊桥的动作序列呈现得很干净。当我要求”复古水彩 + 纸板 + 墨水”时,边缘开始渗化,吊桥也变得断断续续。一个风格锚点能保持机制的完整性。
- “暖色夕阳光线下的低多边形沙漠峡谷。第三人称,一个球形化身沿沙坡滚下,向左转弯驶上一座木板桥。“约束:匀速滚动,沙地上轻微侧滑,不旋转摄像机。
**结果:**弧形转弯在 5 次中的 3 次有效。加上”不旋转摄像机”消除了一种烦人的倾斜感,那种倾斜会让坡度看起来比实际更陡。
- “等轴测视角的温馨酒馆,像素艺术,32 色调色板。一个酒保精灵在擦吧台;一个顾客精灵挥手示意;门开时悬挂的招牌随之摇摆。“约束:固定等轴测摄像机,1 次摇摆周期。
**结果:**当我指定”1 次摇摆周期”时,摇摆同步效果最好。没有这个描述,招牌摇摆时间过长,注意力从精灵身上被拉走。
- “薄雾中的水墨风格森林小径。第一人称跨过一根长满苔藓的原木,摄像机随步伐下沉,然后恢复。“约束:轻柔的脚步声,缓慢的头部晃动,雾气保持稀薄。
**结果:**摄像机下沉的效果很好地呈现了跨步感。加上”雾气保持稀薄”防止了模型用戏剧性的薄雾遮住原木。
- “复古 DV 画质的滑板公园,下午晚些时候。第三人称跟随镜头,一名滑板手 ollie 跃过一个小路缘石,落地,轻微车轮摩擦声。“约束:手持抖动幅度小,路缘石脚踝高,阴影细长。
结果:“路缘石脚踝高”修正了比例,改善了 ollie 的高度。没有这个描述,动作有时变成一个没有接触路缘石的小跳跃。
关于迭代的注记:
- 我在有无某个约束条件的情况下各试了一遍。去掉”重力向下”后,场景再次变得飘忽——在小巷和滑板公园里尤为明显。
- 较短的提示词表现优于较长的。我的大多数提示词在 30–45 个词左右,加上约束条件。
- 有随机种子时(如果可用),能帮助我比较变化。我维护了一个小网格:3 个种子 × 2 个变体,每个想法约 6 次运行。听起来麻烦,但实际上节省了时间。
有几个局限性我始终没能解决:
- 密码键盘上的具体数字之类的精确文字始终模糊——我专注于动作本身,而不是可读性。
- 较长的多步骤谜题(三步或更多交互)往往在第二步就开始跑偏。拆分成更小的片段效果更好。
- 高度反光的地板有时会在切镜时让阴影融化。标注”反射一致”有所帮助,但不能每次都修复。





