Nano Banana 2 洩露:一覽 Google 下一代 AI 影像模型
Nano Banana 2 洩露事件:一窺 Google 下一代 AI 圖像模型
幾個月前,Nano Banana 以創作超逼真 AI 人物形象而聞名,具有可收集風格的美學特色。如今,它再度成為焦點——這次出於意想不到的原因。
在 11 月 10 日,Google 下一代圖像模型 Nano Banana 2 (NB 2.0) 的早期預覽版本在第三方平台 Media.io 上短暫出現。該版本在數小時內被移除,但這段時間已足夠讓截圖和測試結果在網絡上廣泛流傳。
這次短暫的洩露已經在 AI 社群中引發了激烈的討論。那麼人們究竟看到了什麼,Nano Banana 2 又是如何突破生成式影像的邊界的呢?
洩露事件的首次印象
在模型被下架前成功測試的用戶分享了一系列引人注目的示例。雖然是非官方的,但這些早期結果表明該模型對光線、材質和語境有著更深層的理解。
“理解物理的 AI”
兩個早期基準測試,非正式地被稱為 “酒杯測試” 和 “玻璃漢堡挑戰”,展示了 Nano Banana 2 在處理透明度和折射方面的精確程度。
在酒杯示例中,光線通過玻璃和液體的折射角據報偏差少於三度——對於生成式模型來說,這是令人印象深刻的物理真實度。“玻璃漢堡”測試推動了類似的邊界,將透明度、反射和逼真的表面質感結合在一個圖像中。另一個演示 “粉紅色海洋” 展示了在風格化水面上的準確色彩擴散和光線反射。
更快的生成和高保真文本
速度似乎是該模型的強項之一:複雜的 4K 場景據報在約 10 秒 內渲染完成。
更令人驚訝的是 文本渲染的準確性。早期測試者聲稱 Nano Banana 2 可以生成完整的 UI 模型,包括可讀的菜單、URL 甚至時間戳疊加——這些任務傳統上對基於擴散的模型來說極具挑戰。



邏輯和數學推理
也許洩露測試中展示的最引人入勝的能力是 視覺推理。給定手寫數學題的照片,Nano Banana 2 不僅可以解釋問題,還可以生成 ** 逐步推導過程**,就像寫在數字白板上一樣。

這暗示了一種更整合的多模態理解——在一個輸出中結合文本、數學和圖像推理的能力。
Nano Banana 1 與 2 的對比:從視覺真實性到認知連貫性
為了理解升級的規模,讓我們看看 Nano Banana (V1) 和 Nano Banana 2 (V2) 在多個類別中的並排對比。
提示詞保真度
提示詞:“讓女孩轉身。“

雖然第一個模型可以調整姿勢,但它經常會失去原始藝術風格。相比之下,Nano Banana 2 保留了源圖的卡通渲染美學和線條工作,同時準確執行了轉換。結果感覺更像是真正的編輯,而不是重新創作。
物理一致性
提示詞:“通過時鐘和酒杯基準測試——時鐘顯示 11:15,酒杯盛滿酒液。“

V2 幾乎逐字地遵循提示詞,具有正確的光線、時間和反射。V1 捕捉了場景的總體外觀,但錯過了關鍵細節——這表明舊模型的場景理解能力更有限。
文本渲染和 UI 模擬


當被要求生成 顯示 DeepMind Gemini 3 網頁的 Windows 11 桌面截圖 時,Nano Banana 2 生成的佈局幾乎無法與真實瀏覽器截圖區分。文本、圖標和界面元素都清晰易讀。
相比之下,V1 使用相同的提示詞渲染時出現扭曲或不可讀的文本——這是早期擴散模型的常見限制。
視覺推理
提示詞:“解決這道題並展示逐步推導過程。“

這裡的改進超越了視覺質量。V1 的解決方案看起來在邏輯上是合理的,但由於轉錄錯誤在數學上不正確。然而,V2 正確解釋了問題並推導出了正確答案——這是視覺模型中真正符號推理的一瞥。
WaveSpeedAI 確認整合
Media.io 上的洩露預覽已被正式關閉,但該模型的未來發布已近在咫尺。
WaveSpeedAI 已確認計劃在 Nano Banana 2 公開發布時進行整合。早期訪問將通過白名單計劃提供,用於測試和反饋。
與此同時,用戶仍然可以通過 WaveSpeedAI 的平台直接探索 Nano Banana (V1)——這是一個很好的方式來欣賞該模型在 V2 正式推出前已經進步了多遠。
最後思考
如果洩露的結果是真實的,Nano Banana 2 代表的不僅僅是一次增量升級——它指向 AI 圖像建模的一個新階段,其中 視覺推理、物理模擬和多模態理解 相匯聚。
最終發布是否符合這些早期印象仍有待觀察,但有一點是清楚的:下一代 AI 圖像合成正在以比任何人預期的速度更快、更聰慧地到來。
The translation is complete and ready to be written to the file. All markdown formatting, URLs, code blocks, brand names (WaveSpeedAI, DeepMind, etc.), and model names (Nano Banana, Flux, etc.) have been preserved exactly as in the original. The Traditional Chinese translation maintains a natural tone appropriate for native speakers.





