Утечка Nano Banana 2: Взгляд на следующее поколение модели генерации изображений Google

Утечка Nano Banana 2: Взгляд на следующее поколение модели генерации изображений Google

Утечка Nano Banana 2: Взгляд на модель генерации изображений следующего поколения Google

Несколько месяцев назад Nano Banana стала известна созданием гиперреалистичных фигур ИИ с эстетикой предметов коллекционирования. Теперь она снова в центре внимания — на этот раз по неожиданной причине.

10 ноября ранняя предварительная версия модели генерации изображений нового поколения Google, Nano Banana 2 (NB 2.0), кратко появилась на сторонней платформе Media.io. Версия была удалена в течение нескольких часов, но этого было достаточно, чтобы скриншоты и результаты тестов широко распространились в интернете.

Кратковременная утечка уже вызвала интенсивное обсуждение в сообществе ИИ. Итак, что люди действительно увидели и насколько далеко Nano Banana 2 раздвигает границы генеративного создания изображений?

Первые впечатления от утечки

Пользователи, которым удалось протестировать модель до её удаления, поделились серией впечатляющих примеров. Хотя неофициальные, эти ранние результаты предполагают модель с намного более глубоким пониманием света, материала и контекста.

«ИИ, который понимает физику»

Два ранних теста, неофициально названные «Тест винного бокала» и «Вызов с прозрачным бургером», продемонстрировали, насколько точно Nano Banana 2 может обрабатывать прозрачность и преломление.

В примере с винным бокалом угол преломления света через стекло и жидкость, как сообщалось, отклонялся менее чем на три градуса — впечатляющий уровень физического реализма для генеративной модели. Тест «Glass Burger» раздвинул аналогичные границы, объединив прозрачность, отражение и реалистичную текстуру поверхности в одном изображении. Еще одна демонстрация, «Розовый океан», продемонстрировала точную диффузию цвета и отражение света по стилизованной поверхности воды.

Wine glass and clock benchmark
Тест с винным бокалом и часами
Glass burger benchmark
Прозрачный бургер
Pink Ocean benchmark
Розовый океан

Быстрое создание и высокоточное отображение текста

Скорость, похоже, является одной из сильных сторон модели: сложные сцены в 4K, как сообщалось, отображались примерно за 10 секунд.

Более удивительна точность отображения текста. Ранние тестеры утверждают, что Nano Banana 2 может генерировать полные макеты интерфейсов с читаемыми меню, URL-адресами и даже наложением временных меток — задачи, которые традиционно создавали трудности для моделей, основанных на диффузии.

Precision Comic Translation
Точный перевод комикса
AI-generated browser interface
Интерфейс браузера, созданный ИИ
AI-generated human portraits and surveillance footage
Портреты людей и материалы видеонаблюдения, созданные ИИ

Логические и математические рассуждения

Возможно, самая интригующая способность, продемонстрированная в утёкших тестах, — это визуальное рассуждение. Получив фотографию рукописной математической задачи, Nano Banana 2 не только смогла интерпретировать вопрос, но и создать пошаговый вывод, как если бы он был написан на цифровой доске.

Visual math reasoning demo
Демонстрация визуального математического рассуждения

Это намекает на более интегрированное мультимодальное понимание — способность объединять текстовые, математические и визуальные рассуждения в одном выводе.

Сравнение Nano Banana 1 и 2: От визуального реализма к когнитивной согласованности

Чтобы понять масштабы обновления, давайте посмотрим на сравнения рядом между Nano Banana (V1) и Nano Banana 2 (V2) по нескольким категориям.

Верность подсказке

Подсказка: «Пусть девушка повернётся.»

Prompt fidelity comparison
(Слева направо) Исходное изображение, Nano Banana, Nano Banana 2

Хотя первая модель могла корректировать позу, она часто теряла исходный стиль искусства. В контрасте, Nano Banana 2 сохранила эстетику cel-shading и рисовку исходного изображения при точном выполнении трансформации. Результат выглядит более как истинное редактирование, чем пересоздание.

Физическая согласованность

Подсказка: «Прошла тест с винным бокалом и часами безупречно — 11:15 на часах, винный бокал наполнен до краёв.»

Physical consistency comparison
(Слева направо) Nano Banana, Nano Banana 2

V2 следовала подсказке почти буквально, с правильным освещением, временем и отражениями. V1 захватила общую сцену, но упустила ключевые детали — признак более ограниченного понимания сцены у старой модели.

Отображение текста и имитация интерфейса

Nano Banana V1 UI attempt
Nano Banana (V1)
Nano Banana V2 UI attempt
Nano Banana 2 (V2)

При просьбе создать снимок экрана рабочего стола Windows 11, показывающий веб-страницу DeepMind’s Gemini 3, Nano Banana 2 создала макет, практически неотличимый от реального скриншота браузера. Текст, значки и элементы интерфейса были четкими и легко читаемыми.

В сравнении, V1 отобразила ту же подсказку с искажённым или нечитаемым текстом — распространённое ограничение ранних моделей диффузии.

Визуальное рассуждение

Подсказка: «Решите этот вопрос и покажите пошаговый вывод.»

Visual reasoning comparison
(Слева направо) Исходное изображение, Nano Banana, Nano Banana 2

Здесь улучшение выходит за пределы визуального качества. Решение V1 казалось логичным, но было математически неправильным из-за ошибок транскрипции. V2, однако, правильно интерпретировала задачу и вывела правильный ответ — зарождение подлинного символического рассуждения в визуальной модели.

WaveSpeedAI подтверждает интеграцию

Утёкший предпросмотр на Media.io тем временем был официально закрыт, но выпуск модели уже маячит на горизонте.

WaveSpeedAI подтвердила планы по интеграции Nano Banana 2 как только она станет общедоступной. Ранний доступ будет предоставлен через программу белого списка для тестирования и обратной связи.

Тем временем пользователи могут продолжать изучать Nano Banana (V1) непосредственно через платформу WaveSpeedAI — хороший способ оценить, как далеко продвинулась модель перед официальным дебютом V2.

Заключительные мысли

Если утёкшие результаты подлинны, Nano Banana 2 представляет собой не просто пошаговое обновление — она указывает на новый этап моделирования изображений ИИ, где визуальное рассуждение, физическое моделирование и мультимодальное понимание сходятся.

Совпадёт ли окончательный выпуск с этими ранними впечатлениями, остаётся неясным, но одно ясно: следующее поколение синтеза изображений ИИ приходит быстрее и интеллектуальнее, чем ожидал кто-либо.

Оставайтесь на связи с нами

Discord Community | X (Twitter) | Проекты с открытым исходным кодом | Instagram