Vazamento do Nano Banana 2: Uma Visão do Próximo Modelo de IA de Imagem do Google

Vazamento do Nano Banana 2: Um Vislumbre do Próximo Modelo de IA de Imagens do Google

Alguns meses atrás, o Nano Banana ficou conhecido por criar figuras de IA hiper-realistas com estética de estilo colecionável. Agora, está de volta em destaque — desta vez por uma razão inesperada.

Em 10 de novembro, uma versão de visualização prévia do próximo modelo de imagem de última geração do Google, Nano Banana 2 (NB 2.0), apareceu brevemente na plataforma de terceiros Media.io. A compilação foi removida dentro de horas, mas foi tempo suficiente para que capturas de tela e resultados de teste circulassem amplamente online.

O vazamento de curta duração já provocou uma discussão intensa na comunidade de IA. Então, o que as pessoas realmente viram, e até que ponto o Nano Banana 2 amplia os limites da geração de imagens?

Primeiras Impressões do Vazamento

Os usuários que conseguiram testar o modelo antes que fosse removido compartilharam uma série de exemplos impressionantes. Embora não oficial, esses resultados iniciais sugerem um modelo com uma compreensão muito mais profunda de luz, material e contexto.

”IA que Compreende Física”

Dois benchmarks iniciais, informalmente denominados “Teste da Taça de Vinho” e “Desafio do Hambúrguer de Vidro,” demonstraram com que precisão o Nano Banana 2 pode lidar com transparência e refração.

No exemplo da taça de vinho, o ângulo de refração da luz através do vidro e do líquido foi relatado como desviando menos de três graus — um nível impressionante de realismo físico para um modelo generativo. O teste “Hambúrguer de Vidro” empurrou limites semelhantes, combinando transparência, reflexão e textura de superfície realista em uma única imagem. Outro demo, o “Oceano Rosa,” apresentou difusão de cor precisa e reflexão de luz em uma superfície de água estilizada.

Benchmark de taça de vinho e relógio — Teste de taça de vinho e relógio

Benchmark hambúrguer de vidro — Hambúrguer de vidro

Geração Mais Rápida e Texto de Alta Fidelidade

A velocidade parece ser um dos pontos fortes do modelo: cenas 4K complexas foram relatadas como renderizadas em cerca de 10 segundos.

Mais surpreendente é a precisão na renderização de texto. Os primeiros testadores afirmam que o Nano Banana 2 pode gerar mockups completos de UI, completos com menus legíveis, URLs e até sobreposições de timestamp — tarefas que tradicionalmente desafiaram modelos baseados em difusão.

Retratos humanos gerados por IA e filmagem de vigilância

Raciocínio Lógico e Matemático

Talvez a capacidade mais intrigante demonstrada nos testes vazados foi raciocínio visual. Dada uma foto de um problema matemático manuscrito, o Nano Banana 2 não apenas poderia interpretar a questão, mas também gerar uma derivação passo a passo como se estivesse escrita em um quadro branco digital.

Isso sugere uma compreensão multimodal mais integrada — a capacidade de combinar raciocínio de texto, matemática e imagem em uma única saída.

Comparando Nano Banana 1 e 2: Do Realismo Visual à Coerência Cognitiva

Para entender a escala da atualização, vamos observar comparações lado a lado entre Nano Banana (V1) e Nano Banana 2 (V2) em várias categorias.

Fidelidade do Prompt

Prompt: “Faça a garota se virar.”

Enquanto o primeiro modelo poderia ajustar a pose, muitas vezes perdia o estilo de arte original. Em contraste, o Nano Banana 2 preservou a estética cel-shaded e o trabalho de linha da fonte enquanto realizava a transformação com precisão. O resultado parece mais uma edição verdadeira do que uma recriação.

Consistência Física

Prompt: “Passou no benchmark do relógio & taça de vinho perfeitamente — 11:15 no relógio, taça de vinho cheia até a borda.”

V2 seguiu o prompt quase literalmente, com iluminação, tempo e reflexos corretos. V1 capturou a cena geral, mas perdeu detalhes importantes — um sinal da compreensão de cena mais limitada do modelo anterior.

Renderização de Texto e Simulação de UI

Tentativa de UI do Nano Banana V1 — Nano Banana (V1)

Tentativa de UI do Nano Banana V2 — Nano Banana 2 (V2)

Quando solicitado a gerar uma captura de tela de uma área de trabalho do Windows 11 mostrando a página Gemini 3 do DeepMind, o Nano Banana 2 produziu um layout praticamente indistinguível de uma captura de tela real do navegador. O texto, ícones e elementos da interface eram todos nítidos e legíveis.

Em comparação, V1 renderizou o mesmo prompt com texto distorcido ou ilegível — uma limitação comum de modelos de difusão anteriores.

Raciocínio Visual

Prompt: “Resolva esta questão e mostre a derivação passo a passo.”

Aqui, a melhoria vai além da qualidade visual. A solução de V1 parecia lógica, mas era matematicamente incorreta devido a erros de transcrição. V2, no entanto, interpretou corretamente o problema e derivou a resposta correta — um vislumbre do raciocínio simbólico genuíno em um modelo visual.

WaveSpeedAI Confirma Integração

A visualização vazada em Media.io foi oficialmente fechada, mas o futuro lançamento do modelo já está no horizonte.

A WaveSpeedAI confirmou planos para integrar o Nano Banana 2 assim que se tornar publicamente disponível. O acesso antecipado será fornecido através de um programa de lista branca para testes e feedback.

Enquanto isso, os usuários ainda podem explorar o Nano Banana (V1) diretamente através da plataforma WaveSpeedAI — uma boa maneira de apreciar o quão longe o modelo chegou antes do lançamento oficial da V2.

Pensamentos Finais

Se os resultados vazados forem autênticos, o Nano Banana 2 representa mais do que apenas uma atualização incremental — aponta para uma nova fase da modelagem de imagens de IA onde raciocínio visual, simulação de física e compreensão multimodal convergem.

Se o lançamento final corresponde a essas primeiras impressões ainda está por ser visto, mas uma coisa é clara: a próxima geração de síntese de imagem de IA está chegando mais rápido e mais inteligente do que anyone esperava.