Nano Banana 2 リーク:Googleの次世代AIイメージモデルへの一瞥

Nano Banana 2 リーク:Googleの次世代AIイメージモデルへの一瞥

Nano Banana 2 リーク: Googleの次世代AIイメージモデルの一瞥

数ヶ月前、Nano Bananaはコレクティブルスタイルの美学を備えたハイパーリアルなAIフィギュアを作成することで知られるようになりました。今、それは再び注目を集めています — 今回は予想外の理由からです。

11月10日、Googleの次世代イメージモデルNano Banana 2 (NB 2.0) の初期プレビュービルドが、サードパーティプラットフォームMedia.io に一時的に現れました。ビルドは数時間以内に削除されましたが、それはスクリーンショットとテスト結果がオンライン上で広く流通するには十分な時間でした。

短命だったこのリークはすでにAIコミュニティ全体で激しい議論を巻き起こしています。では、人々は実際に何を見たのでしょうか、そしてNano Banana 2はジェネレーティブイメージングの境界をどこまで押し広げるのでしょうか?

リークからの第一印象

モデルが削除される前にテストすることができたユーザーは、一連の目を引く例を共有しました。非公式ですが、これらの初期結果は、光、素材、コンテキストについてはるかに深い理解を持つモデルを示唆しています。

「物理学を理解するAI」

非公式に**「ワイングラステスト」** と**「ガラスバーガーチャレンジ」** と呼ばれる2つの初期ベンチマークは、Nano Banana 2がいかに正確に透明性と屈折を処理できるかを実証しました。

ワイングラスの例では、ガラスと液体を通る光の屈折角は3度未満の偏差で報告されました — これはジェネレーティブモデルにとって印象的な物理的リアリズムのレベルです。「ガラスバーガー」テストは同様の境界を押し広げ、単一の画像で透明性、反射、リアルな表面テクスチャを組み合わせました。別のデモである**「ピンクオーシャン」** は、スタイライズされた水面全体での正確な色拡散と光反射を示しました。

Wine glass and clock benchmark
ワイングラスと時計テスト
Glass burger benchmark
ガラスバーガー
Pink Ocean benchmark
ピンクオーシャン

より高速な生成と高忠実度テキスト

速度はこのモデルの強みの1つであるようです: 複雑な4Kシーンは約10秒 で描画されたと報告されています。

より驚くべきことは、テキスト描画の精度 です。初期テスターは、Nano Banana 2が完全なUIモックアップを生成でき、読める可能性のあるメニュー、URL、さらはタイムスタンプオーバーレイが完備されていると主張しています — これらは従来、拡散ベースのモデルに課題をもたらしてきたタスクです。

Precision Comic Translation
精密コミック翻訳
AI-generated browser interface
AIが生成したブラウザインターフェース
AI-generated human portraits and surveillance footage
AIが生成した人間の肖像画と監視映像

論理的および数学的推論

リークされたテストで示された最も興味深い機能は、おそらくビジュアル推論 でした。手書きの数学問題の写真が与えられると、Nano Banana 2は質問を解釈するだけでなく、デジタルホワイトボードに書かれたかのような段階的な導出 を生成することができました。

Visual math reasoning demo
ビジュアル数学推論デモ

これは、より統合されたマルチモーダル理解、つまり1つの出力でテキスト、数学、画像推論を組み合わせる能力を示唆しています。

Nano Banana 1と2の比較: ビジュアルリアリズムから認知的一貫性へ

アップグレードの規模を理解するために、複数のカテゴリにおいてNano Banana (V1)Nano Banana 2 (V2) の並べ比較を見てみましょう。

プロンプト忠実度

プロンプト: 「女の子を振り返らせて。」

Prompt fidelity comparison
(左から右へ) オリジナル画像、Nano Banana、Nano Banana 2

最初のモデルはポーズを調整できましたが、元のアートスタイルをしばしば失いました。対照的に、Nano Banana 2はソースのセルシェーディング美学とラインワークを保持しながら、変換を正確に実行しました。結果は再作成よりも本当の編集のように感じられます。

物理的一貫性

プロンプト: 「時計とワイングラスのベンチマークを完璧にパス — 時計は11:15、ワイングラスは満杯。」

Physical consistency comparison
(左から右へ) Nano Banana、Nano Banana 2

V2はプロンプトをほぼ文字通りに従い、正確な照明、時間、反射を備えていました。V1は一般的なシーンをキャプチャしましたが、重要な詳細を見逃しました — 古いモデルのより限定的なシーン理解の兆候です。

テキスト描画とUIシミュレーション

Nano Banana V1 UI attempt
Nano Banana (V1)
Nano Banana V2 UI attempt
Nano Banana 2 (V2)

DeepMindのGemini 3ウェブページを表示するWindows 11デスクトップのスクリーンショットを生成するよう求められたとき、Nano Banana 2は実際のブラウザスクリーンショットと区別がつかないほどのレイアウトを生成しました。テキスト、アイコン、インターフェース要素はすべてシャープで読みやすかったです。

比較して、V1は同じプロンプトをゆがんだまたは読めないテキストで描画しました — これは以前の拡散モデルの一般的な制限です。

ビジュアル推論

プロンプト: 「この質問を解いて、段階的な導出を示して。」

Visual reasoning comparison
(左から右へ) オリジナル画像、Nano Banana、Nano Banana 2

ここでは、改善は視覚的品質を超えています。V1のソリューションは論理的に見えましたが、転記エラーのために数学的に不正確でした。しかし、V2は問題を正しく解釈し、正しい答えを導き出しました — これはビジュアルモデルにおける本物の記号推論の一瞥です。

WaveSpeedAIが統合を確認

Media.ioのリークされたプレビューはそれ以来公式に閉じられましたが、モデルの将来のリリースはすでに目前に迫っています。

WaveSpeedAI は、Nano Banana 2 が公開利用可能になったら統合する計画を確認しました。早期アクセスはテストとフィードバックのためのホワイトリストプログラムを通じて提供されます。

その間、ユーザーは依然としてWaveSpeedAIのプラットフォームを通じてNano Banana (V1) を直接探索できます — V2の公式デビュー前にモデルがどこまで来たかを理解するための良い方法です。

最終的な考え

リークされた結果が本物であれば、Nano Banana 2は単なる段階的なアップグレード以上の何かを表しています — それはビジュアル推論、物理シミュレーション、マルチモーダル理解 が収束する新しいAIイメージモデリングの段階を指し示しています。

最終リリースがこれらの初期の印象と一致するかどうかは、まだ見られるべきことですが、1つのことは明確です: 次世代のAI画像合成はより速く、より賢く到着しています。