Google Genie 3とは?DeepMindのワールドモデル解説

Google Genie 3とは?DeepMindのワールドモデル解説

こんにちは、Doraです。小さなことで引っかかってしまいました。UXアイデア用に短いリファレンスビデオをクリップしていたとき、そのクリップを「つつく」ことができたら、シーンを少しずつ調整したり、角度を変えたり、キャラクターを左に2ステップ移動させたりしたいと思いました。Figmaを再度開いたり、After Effectsに触れたりすることなく。そこで、私はGoogleのGenieシリーズに戻りました。数ヶ月前に初期のGenieデモを見たことがあり、その後、新しい「Genie 3」についての話がありました。

2026年1月下旬の数晩、私は公式の投稿を読み、研究ビデオを見て、実際に試したことのある以前のインタラクティブ環境モデルと比較することに費やしました。できる限り、古い公開Genieマテリアルから小さなフローを再現しました。アクセスが閉じられていた場合、メモを取り、主張があいまいに感じられたときに一時停止しました。ここで、プレスラインではなく、実際には「ワールドモデル」が何を意味するかに焦点を当てた、引っかかったものがあります。

Google Genie 3 の機能

高いレベルでは、Genie 3はテキストまたは画像をインタラクティブで再生可能なシーンに変換できるワールドモデルとして提示されています。短い2Dまたはスタイリッシュな3Dスニペットのことを考えてください。視ているだけでなく、実際に制御できるものです。Googleの/DeepMindのデモでは、シーンをスケッチまたは説明して、モデルがオブジェクト、物理的ルール、制御可能なアクターを備えた一貫性のある環境を立ち上げます。最終結果はビデオのように見えますが、小さなゲームのように動作します。

ピッチは微妙ですが重要です。1回限りのフレームをレンダリングして遠距離からのみ正しく見えるのではなく、ワールドモデルは基礎となるダイナミクスを学習しようとしています。左を押すと、キャラクターが、それが想像したばかりの世界に合った方法で移動します。ボールが落ちると、重力は毎回同じように動作します。その一貫性は、素晴らしいクリップとあなたが使用できるツールの違いです。

Genie 3のデモと以前のGenieの反復との比較で気づいたのは、より長く、より一貫性のあるロールアウトへのプッシュです。以前のGeniesは楽しい、単一レベルのおもちゃを生成できました。Genie 3はより長くルールを保持し、アクションが一緒にチェーン化されて、シーンが解ける可能性があります。私が「見える」と言う理由は、正確な研究ビルドを手に持っていないからです。しかし、クリップはより少ない奇妙な不具合、キャラクターが壁を通ってクリップする瞬間が少なく、カメラがパンするときにテクスチャが溶ける瞬間が少なく見えます。アップグレードは派手さよりも安定性についてのようです。

実際には、これが今日のツールボックスにあった場合、どのように使用するかは次のとおりです。

  • プロトタイプを作成する:スケッチレイアウトを再生可能なモックに変換して、利害関係者がそれらを見るだけでなく、タイミングとアフォーダンスを感じることができるようにします。
  • モーションアイデアを探索する:遷移またはインタラクションのバリアントを生成して、手に感じる方を選びます。
  • 教えるまたはテストする:小さな制約のある世界を構築して、オンボーディングフローやトレーニングタスクなど、アクション実行の順序を確認します。

それが魅力です。マジックではなく、初期のパスでの摩擦が少なくなります。

ワールドモデルの仕組み

用語をただ積み重ねるつもりはありません。基本的な考え方:ワールドモデルは、単にどのように見えるかではなく、シーンが時間とともにどのように変わるかを学習しようとします。MuZeroやドリーマーのような仕事を見たことがあれば、糸が馴染みのある感じになるでしょう。国家の簡潔な表現を学んで、それがどのようにアクションで進化するかを予測し、人格に留まるビジュアルをサンプルします。 「ワールドモデル」を聞いたときに心に留めておく実用的なビット:

  • シーンの内部メモリがあります。モデルは各フレームをスクラッチから再描画していません。エンティティとルールを追跡して、モーションが継続性を持つようにします。
  • アクションが重要です。次のフレームを予測するのではなく、アクション(ジャンプ、ターン、衝突)が与えられた次の状態を予測します。これが再生可能にするのです。
  • 一貫性はコストを計算します。より長く安定したロールアウトは、より慎重なトレーニングと推論を意味します。何かが遅く感じられたら、それはしばしばその理由です。

ワールドモデル対ビデオジェネレータ

現在のほとんどのビデオジェネレータはもっともらしいピクセルを作成し、その後、あなたの脳がギャップを埋めることを願っています。彼らは短い映画バーストと素早いエディットで優れています。しかし、それらを制御してみると、幻想は滑ります。入力を追加した瞬間、モデルは何が存在するか、どこにあるのか、どのように動作するかを覚えておく必要があります。

ワールドモデルは優先順位を反転させます:最初に覚えて、2番目に描画します。前払いのコストがかかります。データ、トレーニング、ガードレール。しかし、相互作用で報われます。私のメモでは、「ビデオゲンはストーリーテラーです。ワールドモデルはステージマネージャーです」と書きました。完璧な類似性ではありませんが、Genie 3が異なる理由を説明しています。あなたは単に「これはプラットフォーマーのように見えることができますか?」と尋ねるだけではありません。あなたは「2回遊べて同じルールが得られますか?」と聞いています。それが仕事に重要な栏です。

デモンストレーションされた主な機能

Genie 3ビルドに直接アクセスできなかったため、公式デモおよび論文全体で見えて一貫性のあるものと、古い公開アーティファクトで再現できたものに固定しました。ここでは、意味のあるパーツは以下の通りです。

  • プロンプトから再生可能なシーンへ:テキストまたはスケッチを制御できる小さな環境に変換します。古いGenieマテリアルでは、粗いスプライトシートから数分でシンプルなプラットフォーマーに進むことができました。Genie 3デモでは、同じアイデアがより良い安定性とより長いシーケンスで表示されます。ジャンプアークは繰り返し可能に見えます。衝突はあまり柔らかく見えません。
  • 時間の経過に伴うルール持続性:これは静かな勝利です。ビデオゲンでは、より長いクリップは漂い、オブジェクトは変形し、照明はつまずき、レイアウトは這います。Genieのようなワールドモデルでは、「物理」とオブジェクトのアイデンティティが付き添います。以前のGenie 3クリップと比べて、Genie 3クリップではより少ない継続性の中断が見られました。
  • 編集可能な開始状態:一部のデモは、イメージまたはレイアウトからワールドをシード処理し、そこから再生することを示しています。それは聞こえるより重要です。それは、私が選択したツールで概要を説明し、その後、アセットを再構築することなく再生可能なテストにプッシュできることを意味します。
  • アクション条件付きロールアウト:モデルは一貫した結果で入力に応答します。左を押す:左に移動します。棚の近くで上を押す:つかんでください。これは基本的に聞こえますが、おもちゃとテストベッドの違いです。
  • スタイリッシュだが読みやすいビジュアル:見た目はレトログームアートとペイント的なビデオの間のどこかにあります。フォトリアルではありません。これは多くのワークフロー向けの機能です。不気味なエッジなしで明確さを得ます。
  • より長い地平線、まだ境界:数十秒のように感じるロールアウトが安定したルールで気づきました。しかし、彼らはオープンワールドのサンドボックスではありません。スペースはオンでコンパクトです。正直なところ、ほとんどのプロトタイピングに問題ありません。

それが少しこすった場合:

  • レイテンシと反復速度:以前の実験では、新しい「世界」が安定するのを待つことが多くありました。Genie 3がより重い場合、同様の待機を予想します。出力が再利用可能な場合は大丈夫ですが、探索している場合は大丈夫ではありません。
  • 制約の制御:デザイナーはダイアルを望んでいます:重力強度、摩擦、衝突許容度。デモはめったに明示的なノブを示しません。コントロールが存在する場合、おそらくプロンプトまたは隠しパラメータに詰められます。見えるスライダーが欲しいです。
  • アセット引き渡し:シーンが正しく感じられても、本番パイプラインにエクスポートすることはかなり重要ではありません。スプライト抽出、ヒットボックス、ステートマシンは、これらは接着作業です。公開マテリアルではまだ明確なパスが見えていません。

以前のGenieアーティファクトでのサイドテストからの小さな喜び:精神的な負荷が低下しました。物理学を偽造するための「正しい」プラグインを探していませんでした。私は入力し、生成し、キャラクターを周りに押しました。最初は速くはなりませんでしたが、気分が悪くなりました。それは予想以上に重要でした。

現在のアクセスステータス

2026年2月初旬の時点で、Genie 3は研究領域にあります。論文、トーク、デモビデオがあります。Googleアカウントでサインインできる幅広い公開APIを見たことがなく、ワークスペースツールの消費者リリースはありません。後でこれを読んでそれが変わった場合、素晴らしい、メモを落としてもらい、更新します。

今すぐ見に行く場所:

  • Google DeepMindからの公式研究投稿。グラウンディング用に元のGenie論文とブログから始めて、次に「Genie 2」または「Genie 3」が内部反復として言及されるフォローアップトークをスキミングします。
  • カンファレンス記録とラボデモ。彼らはしばしば、公開プレビューの数ヶ月前に最新のロールアウトを示しています。
  • 「ワールドモデルビデオ生成」または「インタラクティブ環境生成」を参照する学術的なプレプリント。命名は異なりますが、メカニクスはライムです。

待つ、構築する、または無視するかどうかを決める場合の実用的な重要なポイント

  • インタラクションをたくさんプロトタイプすることが多い場合(製品、ゲーム、学習)、Genieに目を光らせてください。限定的な公開プレビューでさえプレビジュアライゼーションと感じテストに有用です。
  • 今日の本番資産が必要な場合は、その周りを計画しないでください。パイプラインではなく、スケッチングコンパニオンとして扱います。
  • 研究複製を気にする場合でも、Dreamerバリアントのようなオープンワールドモデルプロジェクトで遊んだり、Genieのメソッドセクションを読んだりすることで多くのことを学ぶことができます。原則は転送されます。

小さなことを追加して、やや退屈なメモを追加します。検索用語「Genie 3 Google」は、古いGenieの投稿と新しいワールドモデルのニュースが混在しています。一部のライトアップはマーケティングと研究をぼかします。疑いがある場合は、DeepMindブログまたは紙のPDFに請求を追跡します。時間を節約し、期待を安定に保ちます。