← ブログ

Genie 3プロンプト:効果的なワールド説明の書き方

デモ分析とワールドモデルの原則に基づいて、Genie 3向けの効果的なプロンプトを書くためのガイド。

1 min read
Genie 3プロンプト:効果的なワールド説明の書き方

こんにちは、Doraです。2026年1月下旬、テストしていた**Genie 3**のビルドから、浮遊感があり結果が伴わない世界を出力し続けていました。最初のフレームは美しいのに、その後は夢の中のような物理演算になってしまうのです。プロンプトは頭の中では正しく聞こえるのに、出力は意図からずれていく。ドアがちゃんと開かない。重力が自分を忘れる。

そこで、ペースを落としました。プロンプトを詩のように書くのをやめ、短くて平易な仕様書として扱い始めたのです。そうしたら、世界が安定し始めました。完璧ではないけれど、ずっと安定するようになりました。これが、実際のタスクで効果があったことをもとに組み立てた、私の今のGenie 3プロンプトへのアプローチです。

ワールドモデルのためのプロンプト構造

華やかなプロンプトを書くのをやめ、チームメートがざっと見て作業に入れるような、小さくて地味なものを書くようにしました。ワールドモデルはそういったプロンプトに好反応します。私のベースラインは4つのパーツで構成されています。

  • 設定:どこで、いつ。具体的に。「謎めいた都市の雰囲気」ではなく「夕暮れの狭い路地」。
  • ダイナミクス:何がどう動くか。力、制約、トリガーを明示する。
  • エージェント:誰が、または何が行動するか。一人称カメラかサイドビューか?人間か物体か?何ができるか?
  • ゴール/アフォーダンス:ここで何ができるか。ドアが開く、レバーを引く、梯子を登る。

これを1〜3文で書き、その後に制約の1行を加えます。それだけです。長くなるほど矛盾が生まれ(そしてモデルは間違った方を選びます)。

よく再利用した構造:

  • 文1:具体的な場所+時間帯+照明。
  • 文2:操作可能なエージェント+カメラ+動きの動詞。
  • 文3:主要なインタラクションと結果。
  • 制約行:1〜3個の短い制約(物理、カメラ、ペーシング)。

なぜこれが重要か:ワールドモデルは単に描画するのではなく、パターンをシミュレートするからです。「速い」と「安定した」を同時に指定すると、2つの異なるリズムを要求することになります。重力の向きを指定しなければ、モデルが推測します。曖昧さを減らすことで、モデルが安定したデフォルトを選びやすくなります。

Google Genie 3がこれらのパターンやその他をシミュレートするためにどのように使用できるかについての詳細は、こちらの詳細な記事をご覧ください:Google Genie 3とは?

構造がうまく機能していると判断できるシグナル:

  • 同じシードの3〜5回の生成でカメラのジッターが減少した
  • フレームからフレームへかけてオブジェクトの質感が維持された(浮遊するカップがなくなった)
  • インタラクションが15秒間ダラダラ続く代わりに、6秒以内に完了するようになった

シーンがぐらついていたら、まず形容詞を削除しました。追加するのではなく。シンプルな方が、たいてい勝ちます。

環境描写のテクニック

ワールドモデルのために環境を描写することは、単一の画像をスタイリングすることとは異なります。以下のことを試したときに、より良い結果が得られました。

  • 2〜3つの硬い表面で空間を固定する。「濡れた石畳の地面、左右にレンガの壁、奥に金属のドア」。硬い表面は接触、反射、摩擦を示唆します。
  • アフォーダンスを明示的に指定する。レバーを引くべきなら「胸の高さにある引けるレバー」と書く。ドアが内側に開くべきなら、蝶番の側を指定する。
  • スケールを人間の言葉で表す。「膝の高さの縁石」「腰の高さの手すり」「トラック幅の路地」。モデルはこれらのアンカーに合わせて動きをスナップします。
  • 方向付きの光源を1つ指定する。「ドアの上のネオンサイン、紫の光が左から右へ」。これでシャドウのちらつきが減り、カメラが興味を探してさまよわなくなりました。
  • 雑然とした部分はリストではなくゾーンで定義する。すべてのオブジェクトを列挙するより「右側の壁に沿ったクレートの山」の方がうまく機能しました。名詞が多すぎると、有用な挙動を追加せずにシーンがノイジーになります。

ぶつかった壁:

  • 曖昧な素材は物理演算をすべりやすくしました。「床」だとキャラクターが滑る。「ゴム引きのジムマット」なら摩擦が生まれます。
  • 詰め込みすぎたレイアウトはパスの計算を混乱させました。小さな部屋に6つのプロップを詰め込むと、エージェントが角で躊躇するようになりました。
  • 光の方向なしの時間帯指定は大して効果がありませんでした。「朝」だけではシャドウはほとんど安定しませんでした。

シーンが頼りなく感じられたときは、もう1つ物理的なキュー(「左から右へ風が吹く」や「水しぶきが見える小雨」など)を追加しました。スタイルの言葉を増やすより、小さな物理的キューの方が一貫性を向上させました。

スタイルと美的コントロール

スタイルは最初に追いかけたくなります。でも最後まで取っておくようにしました。世界の挙動が整ったら、見た目を微調整する:

  • スタイルアンカーは3つではなく1つ。「90年代のDVカム」または「柔らかいフィルムグレイン」。「シネマティック、ビンテージ、グリッティ」を重ねるとモーションが濁りました。
  • スタイルは色だけでなく物理と結びつける。「わずかに肩が揺れる手持ちカメラ」はスタイルであると同時にカメラの挙動も設定します。
  • レンズの焦点距離は必要な場合のみ言及する。「28mm広角」は狭い空間で役立つこともありましたが、レンズの話がモーションキューを圧倒することがありました。
  • テクスチャは形容詞ではなく動詞で表現する。「夢のような、霞がかった、幻想的な」より「木漏れ日の中を塵が漂う」の方が上です。動詞はモデルにアニメートする何かを与えます。

RunwayのGen-3のようなビデオのみのモデルと比べると、ワールドモデルのプロンプトは純粋な見た目よりもアクションとアフォーダンスに対してより強く反応することに気づきました。Gen-3から来た場合、スタイルの積み重ねを減らし、空間とアクションの記述を増やす必要があるかもしれません。

スタイルが挙動と競合したら、まずスタイルを削除しました。美しくても滑りやすいシーンより、シンプルで信憑性のあるシーンの方が上です。

分析付きサンプルプロンプト10選

以下は、私が実際に使用した、または近いバリエーションの正確な**Genie 3プロンプト**です。2026年1月下旬に各プロンプトを3〜5回実行し、一度に1変数を調整しました。プロンプトと実際に変化したことを示します。

フォトリアリスティックなシーン

  1. 「濡れた石畳の地面とレンガの壁が左右に続く夕暮れの狭い路地。点滅するネオンサインの下にある金属製のドアに向かって一人称視点で歩くペース。ハンドルに手を伸ばして内側にドアを押し開ける。」制約:安定した手持ち、小雨、重力は下向き。

結果: ドアは〜4〜6秒で確実に開きました。小雨が摩擦を表現するのに役立ちました。「内側に押す」がないと、ドアが逆向きに開くことがありました。

  1. 「夜の小さなキッチン、頭上の蛍光灯のハム音。三人称視点、腰の高さのカメラが湯気の立つマグカップを持って木製テーブルに向かう人物を追う。マグカップを置く:小さなしぶき:蒸気がカールする。」制約:カメラドリーなし、柔らかいぶつかる音、安定したシャドウ。

結果: 蒸気と小さなしぶきは5回中4回現れました。「木製テーブル」を忘れると、光沢のある表面でマグカップが少し滑りました。素材の指定が重要でした。

  1. 「閑散時の地下鉄ホーム、冷たい白い照明。通勤者が黄色い安全線を跨ぎ、止まって、戻るサイドビュー。」制約:一定速度、ジャンプカットなし。

結果: 明確な踏み出し・修正の動作が得られました。「止まって戻る」を削除すると、モデルは手を振ったりスマホをチェックしたりと、もっともらしいが意図とは異なる動作を即興しました。

  1. 「カーペットの床と右側にガラス壁のあるオフィスの廊下。一人称視点でキーパッドドアへジョグ:手がPINを入力:ドアがカチッと開く。」制約:わずかな呼吸音、手首の高さのキーパッド、重力は下向き。

結果: 「手首の高さのキーパッド」があると最良。それがないと手が上向きに浮きました。呼吸音(言葉としても)はペーシングを微調整し、ロボット的な動きを避けるのに役立ちました。

  1. 「低い天井と光沢のあるコンクリートの駐車場。固定カメラ、転がるスーツケースがスピードバンプを越えて、ぐらつき、安定するサードパーソン。」制約:固定カメラ、かすかなエコー、一貫した反射。

結果: 「スピードバンプを越えてぶつかる」と書いたときのみぐらつきが現れました。「バンプを渡る」と書くと、車輪のぐらつきが消えることがよくありました。接触キューを含む動詞が効果的でした。

スタイライズされた環境

  1. 「正午の横スクロールペーパージオラマ都市。ダンボールのビル、プーリーで動く描かれた雲。切り抜きキャラクターが走って赤いレバーを引く:跳ね橋が下りる。」制約:パラレックスレイヤー、くっきりとしたエッジ、重力は下向き。

結果: レバーと橋のシーケンスはきれいに保たれました。「ビンテージ水彩+ダンボール+インク」を要求すると、エッジがにじんで橋がぎこちなくなりました。1つのスタイルアンカーがメカニクスを維持しました。

  1. 「暖かな夕日の光の中のローポリ砂漠の峡谷。球体アバターが砂の斜面を転がり下り、板張りの橋の上を左に曲がるサードパーソン。」制約:一定の転がり速度、砂の上での柔らかいスキッド、カメラロールなし。

結果: バンクターンは5回中3回機能しました。「カメラロールなし」を追加すると、斜面を実際より急に見せる煩わしい傾きが止まりました。

  1. 「等角投影のコージータバーン、ピクセルアート、32色パレット。バーテンダースプライトがバーを拭く:客スプライトが手を振る:ドアが開くと吊り下げられたサインが揺れる。」制約:固定等角カメラ、1スウィング周期。

結果: 「1スウィング周期」を指定したときに最もよく同期しました。それがないとサインが長く揺れすぎて、スプライトから注意を引き離しました。

  1. 「うっすらとした霧の中のインク水墨画の森の小道。一人称視点で苔むした丸太を跨ぎ、カメラが踏み込みに合わせて傾き、元に戻る。」制約:柔らかい足音、ゆっくりとした頭の揺れ、霧は薄いまま。

結果: カメラの傾きが踏み込みを表現しました。「霧は薄いまま」を追加すると、モデルが劇的なもやで丸太を隠さなくなりました。

  1. 「午後遅いレトロDVカムのスケートパーク。スケートボーダーが小さな縁石をオーリーして着地し、わずかな車輪のチャターが続くサードパーソンフォロー。」制約:手持ちジッターは小さく、縁石は足首の高さ、シャドウは長く。

結果: 「縁石は足首の高さ」がスケールを修正し、オーリーの高さを改善しました。それがないと、トリックが縁石に接触しないただのホップになることがありました。

イテレーションに関するメモ:

  • 各プロンプトを制約1つあり・なしで試しました。「重力は下向き」を削除すると、路地とスケートパークで明らかにシーンが浮遊感を帯びました。
  • 短いプロンプトの方が長いものより優れていました。私のほとんどのプロンプトは制約を除いて〜30〜45語でした。
  • シード(利用可能な場合)は変更の比較に役立ちました。小さなグリッドを維持しました:3シード×2バリエーション、アイデアごとに〜6回実行。手間がかかるように聞こえますが、時間の節約になりました。

どうしても解消できなかったいくつかの限界:

  • キーパッドの数字のような精細なテキストはぼやけたままでした。文字の判読性ではなくアクションに集中しました。
  • 長い複数ステップのパズル(3つ以上のインタラクション)は、ステップ2あたりでドリフトし始める傾向がありました。小さなビートに分割する方がうまくいきました。
  • 高反射性の床がカット間でシャドウを溶かすことがありました。「一貫した反射」を明示することで改善しましたが、毎回修正できたわけではありません。