Утечка Nano Banana 2: Взгляд на следующее поколение модели генерации изображений Google
Утечка Nano Banana 2: Взгляд на модель генерации изображений следующего поколения Google
Несколько месяцев назад Nano Banana стала известна созданием гиперреалистичных фигур ИИ с эстетикой предметов коллекционирования. Теперь она снова в центре внимания — на этот раз по неожиданной причине.
10 ноября ранняя предварительная версия модели генерации изображений нового поколения Google, Nano Banana 2 (NB 2.0), кратко появилась на сторонней платформе Media.io. Версия была удалена в течение нескольких часов, но этого было достаточно, чтобы скриншоты и результаты тестов широко распространились в интернете.
Кратковременная утечка уже вызвала интенсивное обсуждение в сообществе ИИ. Итак, что люди действительно увидели и насколько далеко Nano Banana 2 раздвигает границы генеративного создания изображений?
Первые впечатления от утечки
Пользователи, которым удалось протестировать модель до её удаления, поделились серией впечатляющих примеров. Хотя неофициальные, эти ранние результаты предполагают модель с намного более глубоким пониманием света, материала и контекста.
«ИИ, который понимает физику»
Два ранних теста, неофициально названные «Тест винного бокала» и «Вызов с прозрачным бургером», продемонстрировали, насколько точно Nano Banana 2 может обрабатывать прозрачность и преломление.
В примере с винным бокалом угол преломления света через стекло и жидкость, как сообщалось, отклонялся менее чем на три градуса — впечатляющий уровень физического реализма для генеративной модели. Тест «Glass Burger» раздвинул аналогичные границы, объединив прозрачность, отражение и реалистичную текстуру поверхности в одном изображении. Еще одна демонстрация, «Розовый океан», продемонстрировала точную диффузию цвета и отражение света по стилизованной поверхности воды.
Быстрое создание и высокоточное отображение текста
Скорость, похоже, является одной из сильных сторон модели: сложные сцены в 4K, как сообщалось, отображались примерно за 10 секунд.
Более удивительна точность отображения текста. Ранние тестеры утверждают, что Nano Banana 2 может генерировать полные макеты интерфейсов с читаемыми меню, URL-адресами и даже наложением временных меток — задачи, которые традиционно создавали трудности для моделей, основанных на диффузии.



Логические и математические рассуждения
Возможно, самая интригующая способность, продемонстрированная в утёкших тестах, — это визуальное рассуждение. Получив фотографию рукописной математической задачи, Nano Banana 2 не только смогла интерпретировать вопрос, но и создать пошаговый вывод, как если бы он был написан на цифровой доске.

Это намекает на более интегрированное мультимодальное понимание — способность объединять текстовые, математические и визуальные рассуждения в одном выводе.
Сравнение Nano Banana 1 и 2: От визуального реализма к когнитивной согласованности
Чтобы понять масштабы обновления, давайте посмотрим на сравнения рядом между Nano Banana (V1) и Nano Banana 2 (V2) по нескольким категориям.
Верность подсказке
Подсказка: «Пусть девушка повернётся.»

Хотя первая модель могла корректировать позу, она часто теряла исходный стиль искусства. В контрасте, Nano Banana 2 сохранила эстетику cel-shading и рисовку исходного изображения при точном выполнении трансформации. Результат выглядит более как истинное редактирование, чем пересоздание.
Физическая согласованность
Подсказка: «Прошла тест с винным бокалом и часами безупречно — 11:15 на часах, винный бокал наполнен до краёв.»

V2 следовала подсказке почти буквально, с правильным освещением, временем и отражениями. V1 захватила общую сцену, но упустила ключевые детали — признак более ограниченного понимания сцены у старой модели.
Отображение текста и имитация интерфейса


При просьбе создать снимок экрана рабочего стола Windows 11, показывающий веб-страницу DeepMind’s Gemini 3, Nano Banana 2 создала макет, практически неотличимый от реального скриншота браузера. Текст, значки и элементы интерфейса были четкими и легко читаемыми.
В сравнении, V1 отобразила ту же подсказку с искажённым или нечитаемым текстом — распространённое ограничение ранних моделей диффузии.
Визуальное рассуждение
Подсказка: «Решите этот вопрос и покажите пошаговый вывод.»

Здесь улучшение выходит за пределы визуального качества. Решение V1 казалось логичным, но было математически неправильным из-за ошибок транскрипции. V2, однако, правильно интерпретировала задачу и вывела правильный ответ — зарождение подлинного символического рассуждения в визуальной модели.
WaveSpeedAI подтверждает интеграцию
Утёкший предпросмотр на Media.io тем временем был официально закрыт, но выпуск модели уже маячит на горизонте.
WaveSpeedAI подтвердила планы по интеграции Nano Banana 2 как только она станет общедоступной. Ранний доступ будет предоставлен через программу белого списка для тестирования и обратной связи.
Тем временем пользователи могут продолжать изучать Nano Banana (V1) непосредственно через платформу WaveSpeedAI — хороший способ оценить, как далеко продвинулась модель перед официальным дебютом V2.
Заключительные мысли
Если утёкшие результаты подлинны, Nano Banana 2 представляет собой не просто пошаговое обновление — она указывает на новый этап моделирования изображений ИИ, где визуальное рассуждение, физическое моделирование и мультимодальное понимание сходятся.
Совпадёт ли окончательный выпуск с этими ранними впечатлениями, остаётся неясным, но одно ясно: следующее поколение синтеза изображений ИИ приходит быстрее и интеллектуальнее, чем ожидал кто-либо.
Оставайтесь на связи с нами
Discord Community | X (Twitter) | Проекты с открытым исходным кодом | Instagram
