Google DeepMind Genie 3: インタラクティブな環境を生成する世界モデル

Google DeepMindは、テキストプロンプトから対話型の仮想環境を生成するワールドモデルであるGenie 3をリリースしました。従来のビデオ生成器が受動的なコンテンツを生成するのとは異なり、Genie 3は探索可能な世界を作成し、ユーザー入力にリアルタイムで応答します。このモデルは、米国のGoogle AI Ultraサブスクライバーが利用できるようになりました。

ワールドモデルとは何か

ワールドモデルはビデオ生成や静的3D再構成技術と根本的に異なります。SoraやRunwayのようなビデオ生成器が事前決定されたシーケンスを生成し、NeRFsやGaussian Splattingのような手法が既存のシーンを再構成するのに対し、ワールドモデルは環境を動的にシミュレートします。

Genie 3は初期プロンプトとユーザーの継続的なやり取りの両方に基づいて、フレームを自動回帰的に1つずつ生成します。つまり、環境は固定シーケンスを再生するのではなく、ナビゲーションとアクションに応じて進化します。

主な機能

リアルタイム生成

Genie 3は720p解像度で毎秒24フレームのコンテンツを生成します。このシステムはユーザー入力に即座に応答し、生成された環境を通してスムーズなナビゲーションを可能にします。これは大きな技術的成果を表しています—フレームをその場で生成しながら一貫性のあるビジュアルを維持することです。

環境の一貫性

モデルは約1分間の視覚的メモリを維持し、ユーザーが空間を移動するときの一貫性を確保します。オブジェクトは安定した状態を保ち、ライティングは一貫性を保ち、視点が変わっても全体的なシーンはその識別性を維持します。

物理シミュレーション

Genie 3は様々な物理現象をシミュレートします：

水の物理演算：反射、波紋、流体運動
ライティング：動的影、時刻の変化、大気効果
天候：雨、雲、霧の遷移
動物の行動：環境内で移動し反応する生物

プロンプト可能なイベント

ユーザーは操作中にテキストプロンプトを通して生成された世界に変化を注入できます。これには天候条件の変更、オブジェクトの導入、または環境変化のトリガーが含まれます—すべてセッションを維持しながら。

多様な世界タイプ

モデルは様々な環境タイプを処理します：

フォトリアリスティックな風景：正確なライティングと植生を備えた自然環境
幻想的なシナリオ：異星世界、魔法の森、不可能な建築
歴史的再構成：時代正確な都市景観と室内
抽象空間：非ユークリッド幾何学と超現実的な環境

以前のバージョンからの進化

Genieプロジェクトは複数のイテレーションを通じて進行しています：

Genie 1は画像とテキストからゲームのような環境を生成するというコンセプトを実証しましたが、リアルタイム対話性に欠けていました。

Genie 2は視覚品質と一貫性を改善しましたが、主にビデオ生成として機能し、相互作用能力が限定的でした。

Genie 3は真のリアルタイム対話を導入します。ユーザーは生成されたシーケンスを見るのではなく、自由にナビゲートします。モデルは移動とアクションに瞬時に応答し、先行バージョンとは根本的に異なる体験を創造します。

ユースケース

研究への応用

Genie 3のようなワールドモデルは、カスタムシミュレーションを構築することなく、多様なシミュレーション環境でAIエージェントをトレーニングできるようにします。ロボティクス研究者はナビゲーションアルゴリズムをテストでき、自律システム開発者はエージェントを大規模に様々なシナリオにさらすことができます。

教育環境

対話型生成世界は教育目的に役立つ可能性があります—学生が歴史時代を探索したり、アクセス不可能な場所を訪問したり、抽象的な概念をナビゲート可能な3D空間で視覚化したりできるようにします。

クリエイティブおよびメディア制作

コンテンツ作成者はGenie 3をコンセプト探索、ムードボード、および事前ビジュアライゼーションに使用できます。生成された環境を歩いて移動する能力は、空間計画のための静的画像生成よりも利点があります。

ゲーミングとプロトタイピング

ゲームデザイナーはアセットを構築することなく、環境をすばやくプロトタイプ化して空間的な考えをテストできます。現在のシステムは本番ゲームエンジンに置き換わることはできませんが、初期段階の探索を加速します。

現在の制限

Genie 3にはいくつかの注目すべき制約があります：

期間：相互作用は数時間ではなく数分間続きます。このシステムは従来のゲームやシミュレーションに匹敵する拡張セッション用には設計されていません。

地理的正確性：現実世界の場所は正確ではない可能性があります。モデルは正確な再構成ではなく、もっともらしい環境を生成します。

テキストレンダリング：多くの生成モデルと同様に、Genie 3はシーン内で読みやすいテキストのレンダリングに苦労しています。

マルチエージェント相互作用：複数の自律エンティティを含む複雑なシナリオは引き続き課題です。モデルは人口密集した社会的なシーンよりも環境をよりよく処理します。

アクション制限：ユーザーの相互作用は主にナビゲーションベースです。複雑な操作や物理相互作用は従来のゲームエンジンのレベルではサポートされていません。

利用可能性

Genie 3は現在、米国のGoogle AI Ultraサブスクライバーが利用できます。このリリースは2025年8月に発表された研究プレビューに続くもので、パブリック版は2026年1月29日にローンチされました。

アクセスにはアクティブなAI Ultraサブスクリプションが必要です。国際的な利用可能性は発表されていません。

AI開発への影響

Genie 3は空間環境を理解してシミュレートするAIシステムへの進歩を表しています。ワールドモデルは受動的な生成とインタラクティブシミュレーションの間のギャップを埋めます。

この開発から複数のトレンドが浮かび上がります：

トレーニング環境：AIシステムはハンドクラフトシミュレーションではなく生成された世界でますますトレーニングする可能性があり、開発コストを削減し、シナリオの多様性を増加させる可能性があります。

インタラクティブAI：コンテンツ生成とインタラクティブシステムの間の境界は引き続きぼやけています。将来のAIは作成とシミュレーションの間をシームレスに移行する可能性があります。

計算要件：このレベルのこの品質でのリアルタイムワールド生成は、かなりのコンピュートリソースを必要とし、現在はクラウドベースのシステムへのデプロイメントを制限しています。

結論

Genie 3は、AIがテキスト説明から一貫した対話型の3D環境を生成できることを実証しています。期間、正確性、相互作用の複雑性に関する制限が存在しますが、このシステムはAI機能の新しいカテゴリを確立します。

Genie 3のようなワールドモデルは、対話性を追加することで既存のAIビデオおよび画像ジェネレーターを補完します。これらのシステムが改善されるにつれて、生成されたコンテンツとインタラクティブシミュレーションの区別は引き続き狭くなるでしょう。

AI生成環境に関心のある研究者、クリエーター、開発者にとって、Genie 3はワールドモデルが達成できることと、それがどこに向かっているのかを初期段階で見ることができます。