← 部落格

Genie 3 提示詞:撰寫有效的世界描述

基於演示分析與世界模型原理,撰寫有效 Genie 3 提示詞的指南。

2 min read
Genie 3 提示詞:撰寫有效的世界描述

嗨,我是 Dora。2026 年 1 月下旬,我在測試一個 Genie 3 版本時,不斷得到輕飄飄、毫無後果感的世界——第一幀畫面很美,但物理效果像在夢裡一樣。我的提示詞在腦海中聽起來沒問題,但輸出結果卻飄移了。門沒有完全打開。重力忘記了自己的存在。

於是我放慢了腳步。我把提示詞當成一份簡短、平白的規格說明來寫,而不是詩。這樣做之後,世界開始變得更有凝聚力。不完美,但更穩定。這就是我現在撰寫 Genie 3 提示詞的方式,框架來自於實際任務中真正有效的方法。

世界模型的提示詞結構

我不再寫華麗的提示詞,而是開始寫簡短、樸素的——那種隊友掃一眼就能理解並付諸實踐的類型。世界模型對此反應良好。我的基本結構包含四個部分:

  • 場景設定:在哪裡、什麼時候。保持具體。「黃昏時分的狹窄巷弄」,而非「神秘的都市氛圍」。
  • 動態描述:什麼在移動、如何移動。指明力量、限制條件和觸發因素。
  • 主體角色:誰或什麼在行動。第一人稱視角還是側視?人類還是物體?有哪些能力?
  • 目標/可互動性:這裡能做什麼。門可以打開、拉桿可以拉動、梯子可以攀爬。

我把這些寫成一到三句話,再加上一行限制條件。就這樣。寫得越長,通常越容易出現矛盾(而模型會選錯那個)。

我反覆使用的結構:

  • 第一句:具體的地點+一天中的時間+光線。
  • 第二句:可控制的主體+鏡頭+動作動詞。
  • 第三句:關鍵互動與結果。
  • 限制條件行:1–3 條簡短限制(物理、鏡頭、節奏)。

為何這很重要:世界模型不只是在繪畫,它們在模擬規律。如果你說「快速」又說「穩定」,你在要求兩種不同的節奏。如果你不說重力的方向,它就自己猜。減少歧義有助於模型選擇穩定的預設值。

若想更深入了解 Google Genie 3 如何模擬這些規律及更多內容,請參閱我們的詳細文章:什麼是 Google Genie 3?

告訴我結構有效的信號:

  • 在同一種子的 3–5 次生成中,鏡頭抖動減少
  • 物體從一幀到另一幀保持質量感(杯子不再飄浮)
  • 互動在 6 秒內完成,而不是漫無目的地拖了 15 秒

如果場景持續搖晃,我會先刪掉形容詞,而不是增加更多。越簡單通常越管用。

環境描述技巧

世界模型描述環境,與為單張圖像設定風格截然不同。以下幾點讓我獲得了更好的效果:

  • 用兩三個硬質表面錨定空間。「濕漉漉的鵝卵石地面、左右兩側的磚牆、盡頭的金屬門。」硬質表面提示接觸感、反射和摩擦力。
  • 明確指出可互動物件。如果拉桿應該被拉動,就說「胸口高度的可拉式拉桿」。如果門應該向內開,就說明鉸鏈的位置。
  • 用人體尺度設定比例。「膝蓋高的路緣石」、「腰部高的欄杆」、「一輛卡車寬的巷道」。模型會根據這些錨點調整動作。
  • 指定一個有方向的光源。「門上方的霓虹燈招牌,紫色漫射光從左向右。」這減少了陰影閃爍,並防止鏡頭四處搜尋焦點。
  • 將雜亂物件定義為區域,而非清單。「右牆沿線堆疊的板條箱」比逐一列出每個物件效果更好。太多名詞讓場景嘈雜,卻沒有增加有用的行為。

我遇到的阻力:

  • 模糊的材質導致物理效果滑溜。「地板」讓角色像在溜冰;「橡膠健身墊」提供了抓地力。
  • 過度擁擠的佈局讓路徑規劃混亂。當我在小房間塞進六個道具時,主體在角落附近猶豫不決。
  • 缺少光線方向的一天時間描述效果不彰。單獨說「早晨」幾乎無法穩定陰影。

當場景仍然感覺脆弱時,我會增加一個物理線索(例如「風從左向右吹」或「有可見水花的小雨」)。小的物理線索對連貫性的提升,遠比額外的風格詞語更有效。

風格與美學控制

風格很容易成為最先追求的目標。我試著把它留到最後。一旦世界的行為正確了,我才微調外觀:

  • 使用一個風格錨點,而非三個。「1990 年代 DV 攝影機」或「柔和的膠片顆粒」。堆疊「電影感、復古、粗糙」會讓動態效果變得混濁。
  • 將風格與物理效果結合,而不只是顏色。「手持攝影機帶有輕微的肩膀晃動」既是一種風格,也設定了鏡頭行為。
  • 只在必要時提及等效焦距。「28mm 廣角」有時對近距離場景有幫助,但過多的焦距描述可能會壓過動作線索。
  • 用動詞增添質感,而非形容詞。「塵埃微粒在陽光束中漂浮」勝過「夢幻、朦朧、空靈」。動詞給模型一些可以動畫化的東西。

Runway 的 Gen-3 等純影片模型相比,我注意到世界模型的提示詞對動作和可互動性的反應,比對純粹外觀的反應更強烈。如果你來自 Gen-3,你可能需要減少風格描述,增加空間與動作的描述。

當風格與行為發生衝突時,我會先移除風格。一個樸素但可信的場景,勝過一個美麗但滑溜的場景。

10 個範例提示詞分析

以下是我使用的確切 **Genie 3 提示詞**或其接近變體。我在 2026 年 1 月下旬各運行了 3–5 次,每次只調整一個變數。我將展示提示詞以及實際發生的變化。

寫實場景

  1. 「黃昏時分的狹窄巷弄,濕漉漉的鵝卵石地面,左右兩側的磚牆。第一人稱步行速度朝向閃爍霓虹燈招牌下的金屬門前進。伸手握住把手,向內推開門。」限制條件:穩定手持,小雨,重力向下。

結果: 門能可靠地在約 4–6 秒內打開。小雨有助於呈現摩擦感:腳步聲不再滑動。如果沒有「向內推」,門有時會往錯誤方向擺動。

  1. 「深夜的小廚房,頭頂日光燈嗡嗡作響。第三人稱,腰部高度的鏡頭跟拍一個人端著冒著熱氣的馬克杯走向木桌。把杯子放下:小水花:蒸氣盤旋。」限制條件:無鏡頭推軌,輕微碰撞聲,穩定陰影。

結果: 蒸氣和小水花在 5 次中的 4 次出現。如果我忘了說「木桌」,杯子在光滑表面上會稍微滑動。指定材質很重要。

  1. 「非尖峰時段的地鐵月台,冷白色照明。側視角,一名通勤者跨過黃色安全線,停下,然後退回。」限制條件:速度恆定,無跳切。

結果: 清晰的踏步與糾正動作。當我移除「停下然後退回」時,模型即興發揮了揮手或查看手機,雖然合情合理,但不是重點所在。

  1. 「有地毯地板和右側玻璃牆的辦公室走廊。第一人稱慢跑到密碼門:手輸入 PIN 碼:門咔噠一聲打開。」限制條件:輕微呼吸聲,手腕高度的密碼鍵盤,重力向下。

結果: 「手腕高度的密碼鍵盤」效果最好。沒有這個描述,手會向上飄。呼吸聲(即使只是一個詞)也能調整節奏,有助於避免機械式的動作。

  1. 「低矮天花板、光澤混凝土的停車場。第三人稱視角,一個滾動的行李箱撞上減速帶,搖晃,然後穩定下來。」限制條件:固定鏡頭,輕微回音,一致反射。

結果: 只有當我說「撞上減速帶」時,搖晃效果才會出現。如果我寫「越過一個凸起物」,輪子搖晃通常就消失了。帶有接觸線索的動詞有所幫助。

風格化環境

  1. 「正午時分的側捲軸紙立體模型城市。紙板建築,滑輪上的彩繪雲朵。一個剪影角色跑動並拉動一根紅色拉桿:一座吊橋降下。」限制條件:視差層次,清晰邊緣,重力向下。

結果: 拉桿與橋的序列乾淨俐落。當我要求「復古水彩+紙板+油墨」時,邊緣開始滲色,橋也出現卡頓。一個風格錨點保持了機制的完整性。

  1. 「溫暖夕陽光線下的低多邊形沙漠峽谷。第三人稱視角,一個球形化身從沙坡上滾下,向左轉上一座木板橋。」限制條件:滾動速度恆定,沙地輕微打滑,無鏡頭旋轉。

結果: 轉彎動作在 5 次中的 3 次奏效。增加「無鏡頭旋轉」消除了一個惱人的傾斜效果,那個傾斜讓坡度看起來比實際更陡。

  1. 「等距視角的溫馨酒館,像素藝術,32 色調色盤。一個酒保精靈擦拭吧台;一個顧客精靈揮手;一塊懸掛的招牌在門打開時搖擺。」限制條件:固定等距鏡頭,1 個搖擺週期。

結果: 當我指定「1 個搖擺週期」時,搖擺同步效果最好。沒有這個描述,招牌搖擺太久,將注意力從精靈身上轉移走了。

  1. 「薄霧中的水墨風格森林小路。第一人稱步伐跨過一根長滿苔蘚的原木,鏡頭隨著步伐下沉,然後回復。」限制條件:輕柔腳步聲,緩慢的頭部晃動,霧氣保持稀薄。

結果: 鏡頭下沉很好地呈現了跨步感。增加「霧氣保持稀薄」防止了模型用戲劇性的濃霧遮住原木。

  1. 「復古 DV 攝影機風格的滑板公園,午後。第三人稱跟拍,一名滑板手越過一個小路緣石做 ollie,落地,輕微的輪子震動聲。」限制條件:手持抖動幅度小,路緣石踝部高度,陰影拉長。

結果: 「路緣石踝部高度」修正了比例,改善了 ollie 的高度。沒有這個描述,技巧有時變成一個跳躍,卻沒有與路緣石的接觸。

迭代注意事項:

  • 我對每個提示詞進行了有無某一限制條件的測試。移除「重力向下」讓場景再次感覺飄浮,在巷弄和滑板公園場景中尤為明顯。
  • 較短的提示詞表現優於較長的。我的大多數提示詞約 30–45 個英文詞加上限制條件。
  • 種子值(在可用時)幫助我比較變化。我保留了一個小型網格:3 個種子 × 2 個變體,每個想法約 6 次運行。聽起來很繁瑣,但實際上節省了時間。

一些我無法解決的限制:

  • 精確的文字(如密碼鍵盤上的數字)始終模糊——我專注於動作,而非清晰度。
  • 長而多步驟的謎題(三個或更多互動)往往在第二步就開始飄移。拆分成更小的片段效果更好。
  • 高度反光的地板有時會讓陰影在鏡頭切換間融化。指出「一致反射」有所幫助,但並非每次都能解決問題。