Nano Banana 2 泄露:一窥谷歌下一代AI图像模型

Nano Banana 2 泄露:一窥谷歌下一代AI图像模型

Nano Banana 2 泄露:谷歌下一代 AI 图像模型一览

几个月前,Nano Banana 因能够创建具有收藏风格美学的超逼真 AI 人物而闻名。现在,它再次成为人们关注的焦点 — 这次是出于意想不到的原因。

11月10日,谷歌下一代图像模型 Nano Banana 2 (NB 2.0) 的早期** 预览版本**短暂出现在第三方平台 Media.io 上。该版本在几小时内就被移除了,但这足以让截图和测试结果在网上广泛流传。

这次短暂的泄露已经在 AI 社区引发了激烈的讨论。那么人们到底看到了什么,Nano Banana 2 如何推动了生成成像的边界呢?

泄露版本的首次印象

在模型被下线前成功测试过它的用户分享了一系列令人瞩目的示例。虽然这些是非官方的,但这些早期结果表明该模型对光线、材料和上下文的理解要深得多。

“理解物理的 AI”

两个早期基准测试,非正式地被称为**“葡萄酒杯测试”** 和**“玻璃汉堡挑战”**,展示了 Nano Banana 2 在处理透明度和折射方面的精确性。

在葡萄酒杯示例中,光线通过玻璃和液体的折射角据报道偏差小于三度 — 这对于生成模型来说是令人印象深刻的物理逼真程度。“玻璃汉堡”测试推动了类似的边界,在单个图像中结合了透明度、反射和逼真的表面纹理。另一个演示 “粉红海洋” 展示了在风格化水面上准确的颜色扩散和光线反射。

葡萄酒杯和时钟基准测试
葡萄酒杯和时钟测试
玻璃汉堡基准测试
玻璃汉堡
粉红海洋基准测试
粉红海洋

更快的生成速度和高保真文字

速度似乎是该模型的强项之一:复杂的 4K 场景据报道在大约10秒 内渲染。

更令人惊讶的是文字渲染的准确性。早期测试人员声称 Nano Banana 2 可以生成完整的 UI 模型,包括可读的菜单、URL,甚至时间戳叠加 — 这些任务传统上对基于扩散的模型来说是一个挑战。

精密漫画翻译
精密漫画翻译
AI 生成的浏览器界面
AI 生成的浏览器界面
AI 生成的人物肖像和监控画面
AI 生成的人物肖像和监控画面

逻辑和数学推理

泄露测试中展示的最有趣的能力可能是视觉推理。给定一张手写数学问题的照片,Nano Banana 2 不仅可以解释问题,还可以生成** 逐步推导**,就像写在数字白板上一样。

视觉数学推理演示
视觉数学推理演示

这暗示了一种更一体化的多模态理解 — 在一个输出中结合文本、数学和图像推理的能力。

Nano Banana 1 和 2 的对比:从视觉逼真度到认知一致性

为了理解升级的规模,让我们查看 Nano Banana (V1)Nano Banana 2 (V2) 在多个类别中的并排对比。

提示忠实度

提示: “让女孩转身。“

提示忠实度对比
(从左到右) 原始图像、Nano Banana、Nano Banana 2

虽然第一个模型可以调整姿势,但它经常会丧失原始艺术风格。相比之下,Nano Banana 2 在执行变换时保留了源的 cel-shaded 美学和线条工作。结果感觉更像是一个真实的编辑而不是重新创作。

物理一致性

提示: “通过了时钟和葡萄酒杯基准测试 — 时钟显示 11:15,葡萄酒杯盛满。“

物理一致性对比
(从左到右) Nano Banana、Nano Banana 2

V2 几乎逐字地遵循了提示,具有正确的照明、时间和反射。V1 捕捉了总体场景,但错过了关键细节 — 这表明较旧模型的场景理解能力更有限。

文字渲染和 UI 模拟

Nano Banana V1 UI 尝试
Nano Banana (V1)
Nano Banana V2 UI 尝试
Nano Banana 2 (V2)

当被要求生成显示 DeepMind 的 Gemini 3 网页的 Windows 11 桌面屏幕截图 时,Nano Banana 2 生成了一个几乎与实际浏览器屏幕截图无差别的布局。文本、图标和界面元素都清晰易读。

相比之下,V1 以扭曲或不可读的文本渲染了相同的提示 — 这是早期扩散模型的常见局限。

视觉推理

提示: “解决这个问题并显示逐步推导。“

视觉推理对比
(从左到右) 原始图像、Nano Banana、Nano Banana 2

这里的改进超越了视觉质量。V1 的解决方案看起来合乎逻辑,但由于转录错误在数学上是不正确的。然而,V2 正确地解释了问题并得出了正确的答案 — 这是视觉模型中真正符号推理的一瞥。

WaveSpeedAI 确认集成

Media.io 上的泄露预览已经被正式关闭,但该模型的未来发布已经在眼前。

WaveSpeedAI 已确认在 Nano Banana 2 公开可用后的集成计划。早期访问将通过白名单计划提供以进行测试和反馈。

与此同时,用户仍然可以直接通过 WaveSpeedAI 的平台探索 Nano Banana (V1) — 这是在 V2 正式推出前欣赏该模型进展的好方法。

最后的想法

如果泄露的结果是真实的,Nano Banana 2 代表的不仅仅是一个增量升级 — 它指向 AI 图像建模的新阶段,其中视觉推理、物理模拟和多模态理解 汇聚在一起。

最终版本是否与这些早期印象相符还有待观察,但一件事很清楚:下一代 AI 图像合成的到来速度比任何人预期的都要快,而且也更聪明。

与我们保持联系

Discord 社区 | X (Twitter) | 开源项目 | Instagram