Nano Banana 2 リーク：Googleの次世代AIイメージモデルへの一瞥

Nano Banana 2 リーク: Googleの次世代AIイメージモデルの一瞥

数ヶ月前、Nano Bananaはコレクティブルスタイルの美学を備えたハイパーリアルなAIフィギュアを作成することで知られるようになりました。今、それは再び注目を集めています — 今回は予想外の理由からです。

11月10日、Googleの次世代イメージモデルNano Banana 2 (NB 2.0) の初期プレビュービルドが、サードパーティプラットフォームMedia.io に一時的に現れました。ビルドは数時間以内に削除されましたが、それはスクリーンショットとテスト結果がオンライン上で広く流通するには十分な時間でした。

短命だったこのリークはすでにAIコミュニティ全体で激しい議論を巻き起こしています。では、人々は実際に何を見たのでしょうか、そしてNano Banana 2はジェネレーティブイメージングの境界をどこまで押し広げるのでしょうか?

リークからの第一印象

モデルが削除される前にテストすることができたユーザーは、一連の目を引く例を共有しました。非公式ですが、これらの初期結果は、光、素材、コンテキストについてはるかに深い理解を持つモデルを示唆しています。

「物理学を理解するAI」

非公式に**「ワイングラステスト」** と**「ガラスバーガーチャレンジ」** と呼ばれる2つの初期ベンチマークは、Nano Banana 2がいかに正確に透明性と屈折を処理できるかを実証しました。

ワイングラスの例では、ガラスと液体を通る光の屈折角は3度未満の偏差で報告されました — これはジェネレーティブモデルにとって印象的な物理的リアリズムのレベルです。「ガラスバーガー」テストは同様の境界を押し広げ、単一の画像で透明性、反射、リアルな表面テクスチャを組み合わせました。別のデモである**「ピンクオーシャン」** は、スタイライズされた水面全体での正確な色拡散と光反射を示しました。

Wine glass and clock benchmark — ワイングラスと時計テスト

より高速な生成と高忠実度テキスト

速度はこのモデルの強みの1つであるようです: 複雑な4Kシーンは約10秒 で描画されたと報告されています。

より驚くべきことは、テキスト描画の精度 です。初期テスターは、Nano Banana 2が完全なUIモックアップを生成でき、読める可能性のあるメニュー、URL、さらはタイムスタンプオーバーレイが完備されていると主張しています — これらは従来、拡散ベースのモデルに課題をもたらしてきたタスクです。

AI-generated browser interface — AIが生成したブラウザインターフェース

AI-generated human portraits and surveillance footage — AIが生成した人間の肖像画と監視映像

論理的および数学的推論

リークされたテストで示された最も興味深い機能は、おそらくビジュアル推論 でした。手書きの数学問題の写真が与えられると、Nano Banana 2は質問を解釈するだけでなく、デジタルホワイトボードに書かれたかのような段階的な導出 を生成することができました。

Visual math reasoning demo — ビジュアル数学推論デモ

これは、より統合されたマルチモーダル理解、つまり1つの出力でテキスト、数学、画像推論を組み合わせる能力を示唆しています。

Nano Banana 1と2の比較: ビジュアルリアリズムから認知的一貫性へ

アップグレードの規模を理解するために、複数のカテゴリにおいてNano Banana (V1) とNano Banana 2 (V2) の並べ比較を見てみましょう。

プロンプト忠実度

プロンプト: 「女の子を振り返らせて。」

Prompt fidelity comparison — (左から右へ) オリジナル画像、Nano Banana、Nano Banana 2

最初のモデルはポーズを調整できましたが、元のアートスタイルをしばしば失いました。対照的に、Nano Banana 2はソースのセルシェーディング美学とラインワークを保持しながら、変換を正確に実行しました。結果は再作成よりも本当の編集のように感じられます。

物理的一貫性

プロンプト: 「時計とワイングラスのベンチマークを完璧にパス — 時計は11:15、ワイングラスは満杯。」

Physical consistency comparison — (左から右へ) Nano Banana、Nano Banana 2

V2はプロンプトをほぼ文字通りに従い、正確な照明、時間、反射を備えていました。V1は一般的なシーンをキャプチャしましたが、重要な詳細を見逃しました — 古いモデルのより限定的なシーン理解の兆候です。

テキスト描画とUIシミュレーション

Nano Banana V1 UI attempt — Nano Banana (V1)

Nano Banana V2 UI attempt — Nano Banana 2 (V2)

DeepMindのGemini 3ウェブページを表示するWindows 11デスクトップのスクリーンショットを生成するよう求められたとき、Nano Banana 2は実際のブラウザスクリーンショットと区別がつかないほどのレイアウトを生成しました。テキスト、アイコン、インターフェース要素はすべてシャープで読みやすかったです。

比較して、V1は同じプロンプトをゆがんだまたは読めないテキストで描画しました — これは以前の拡散モデルの一般的な制限です。