Fuite de Nano Banana 2 : Un Aperçu du Prochain Modèle d'IA de Génération d'Images de Google

Fuite de Nano Banana 2 : Un Aperçu du Prochain Modèle d'IA de Génération d'Images de Google

Nano Banana 2 Leak : Aperçu du prochain modèle d’IA de Google pour la génération d’images

Il y a quelques mois, Nano Banana s’était fait connaître pour la création de figures d’IA hyper-réalistes avec une esthétique de style collection. Maintenant, il est de retour sous les projecteurs — cette fois pour une raison inattendue.

Le 10 novembre, une version préliminaire du prochain modèle d’IA pour la génération d’images de Google, Nano Banana 2 (NB 2.0), est brièvement apparue sur la plateforme tierce Media.io. Le build a été supprimé en quelques heures, mais cela a suffi pour que des captures d’écran et des résultats de tests circulent largement en ligne.

Cette fuite de courte durée a déjà suscité une discussion intense dans la communauté de l’IA. Alors, qu’ont réellement vu les gens, et jusqu’où Nano Banana 2 repousse-t-elle les limites de la génération d’images ?

Premières impressions de la fuite

Les utilisateurs qui ont pu tester le modèle avant son retrait ont partagé une série d’exemples spectaculaires. Bien qu’non officiels, ces résultats précoces suggèrent un modèle ayant une compréhension beaucoup plus approfondie de la lumière, des matériaux et du contexte.

« Une IA qui comprend la physique »

Deux benchmarks précoces, officieusement surnommés le « Wine Glass Test » (Test du Verre de Vin) et le « Glass Burger Challenge » (Défi du Burger en Verre), ont démontré la précision avec laquelle Nano Banana 2 peut gérer la transparence et la réfraction.

Dans l’exemple du verre de vin, l’angle de réfraction de la lumière à travers le verre et le liquide s’écartait de moins de trois degrés — un niveau impressionnant de réalisme physique pour un modèle génératif. Le test du « Glass Burger » a repoussé des limites similaires, combinant transparence, réflexion et texture de surface réaliste dans une seule image. Une autre démo, le « Pink Ocean » (Océan Rose), a présenté une diffusion de couleur précise et une réflexion lumineuse à travers une surface d’eau stylisée.

Wine glass and clock benchmark
Test du verre de vin et horloge
Glass burger benchmark
Burger en verre
Pink Ocean benchmark
Océan Rose

Génération plus rapide et texte haute fidélité

La vitesse semble être l’une des forces du modèle : les scènes complexes en 4K se rendraient en environ 10 secondes.

Plus surprenant encore, c’est la précision du rendu de texte. Les premiers testeurs affirment que Nano Banana 2 peut générer des maquettes UI complètes, avec des menus lisibles, des URL et même des superpositions d’horodatage — des tâches qui ont traditionnellement posé des défis aux modèles basés sur la diffusion.

Precision Comic Translation
Traduction de Bande Dessinée Précise
AI-generated browser interface
Interface de navigateur générée par l’IA
AI-generated human portraits and surveillance footage
Portraits humains générés par l’IA et images de surveillance

Raisonnement logique et mathématique

Peut-être la capacité la plus intrigante montrée dans les tests divulgués était le raisonnement visuel. Donnée une photo d’un problème mathématique manuscrit, Nano Banana 2 pouvait non seulement interpréter la question mais aussi générer une dérivation étape par étape comme si elle était écrite sur un tableau blanc numérique.

Visual math reasoning demo
Démo de raisonnement mathématique visuel

Cela laisse entendre une compréhension multimodale plus intégrée — la capacité à combiner le texte, les mathématiques et le raisonnement par images dans une seule sortie.

Comparaison entre Nano Banana 1 et 2 : Du réalisme visuel à la cohérence cognitive

Pour comprendre l’ampleur de la mise à niveau, examinons les comparaisons côte à côte entre Nano Banana (V1) et Nano Banana 2 (V2) dans plusieurs catégories.

Fidélité du prompt

Prompt : « Have the girl turn around. »

Prompt fidelity comparison
(De gauche à droite) Image originale, Nano Banana, Nano Banana 2

Alors que le premier modèle pouvait ajuster la pose, il perdait souvent le style artistique original. En contraste, Nano Banana 2 a préservé l’esthétique cel-shading et le travail de ligne de la source tout en effectuant la transformation avec précision. Le résultat ressemble plus à une véritable édition qu’à une recréation.

Cohérence physique

Prompt : « Passed the clock & wine glass benchmark flawlessly — 11:15 on the clock, wine glass filled to the brim. »

Physical consistency comparison
(De gauche à droite) Nano Banana, Nano Banana 2

V2 a suivi le prompt presque littéralement, avec un éclairage correct, l’heure et les réflexions. V1 a capturé la scène générale mais a manqué des détails clés — un signe de la compréhension de scène plus limitée du modèle plus ancien.

Rendu de texte et simulation d’interface utilisateur

Nano Banana V1 UI attempt
Nano Banana (V1)
Nano Banana V2 UI attempt
Nano Banana 2 (V2)

Lorsqu’on lui a demandé de générer une capture d’écran du bureau Windows 11 affichant la page Web de Gemini 3 de DeepMind, Nano Banana 2 a produit une disposition presque indiscernable d’une véritable capture d’écran de navigateur. Le texte, les icônes et les éléments d’interface étaient tous nets et lisibles.

En comparaison, V1 a rendu le même prompt avec du texte déformé ou illisible — une limitation courante des modèles de diffusion antérieurs.

Raisonnement visuel

Prompt : « Solve this question and show step-by-step derivation. »

Visual reasoning comparison
(De gauche à droite) Image originale, Nano Banana, Nano Banana 2

Ici, l’amélioration va au-delà de la qualité visuelle. La solution de V1 semblait logique mais était mathématiquement incorrecte en raison d’erreurs de transcription. V2, cependant, a correctement interprété le problème et a dérivé la bonne réponse — un aperçu du véritable raisonnement symbolique dans un modèle visuel.

WaveSpeedAI confirme l’intégration

L’aperçu divulgué sur Media.io a depuis été officiellement fermé, mais la sortie future du modèle est déjà à l’horizon.

WaveSpeedAI a confirmé des plans pour intégrer Nano Banana 2 une fois qu’il devient disponible publiquement. Un accès précoce sera fourni via un programme de liste blanche pour les tests et les commentaires.

En attendant, les utilisateurs peuvent toujours explorer Nano Banana (V1) directement via la plateforme de WaveSpeedAI — un bon moyen d’apprécier le chemin parcouru par le modèle avant les débuts officiels de V2.

Réflexions finales

Si les résultats divulgués sont authentiques, Nano Banana 2 représente plus qu’une simple mise à niveau progressive — cela indique vers une nouvelle phase de la modélisation d’images IA où le raisonnement visuel, la simulation physique et la compréhension multimodale convergent.

Que la sortie finale corresponde à ces premières impressions reste à voir, mais une chose est claire : la prochaine génération de synthèse d’images IA arrive plus rapidement et plus intelligemment que quiconque ne l’aurait prévu.

Restez connecté avec nous

Communauté Discord | X (Twitter) | Projets Open Source | Instagram

Articles associés