Les démos de Gemini Omni viennent de fuiter — voici ce que fait vraiment le nouveau modèle vidéo de Google
Huit jours après la fuite initiale des chaînes d'interface, les premières vidéos d'exemple de Gemini Omni ont fait surface. Performant sur l'édition guidée par chat, en retrait de Seedance 2.0 sur la fidélité brute, et consommant environ 43 % du quota journalier AI Pro par clip. Voici une lecture honnête une semaine avant Google I/O 2026.
Lorsque nous avons écrit sur la fuite initiale d’Omni le 3 mai, toute l’histoire tenait en une seule chaîne d’interface. Huit jours plus tard, le tableau s’est considérablement étoffé. L’application mobile Gemini a fait apparaître de véritables vidéos d’exemple générées par le modèle, l’identifiant interne du modèle a fuité (bard_eac_video_generation_omni), et suffisamment d’impressions d’utilisateurs sont désormais publiques pour formuler quelques premières conclusions.
En résumé : Omni est réel, il s’agit presque certainement d’un nouveau modèle plutôt que d’un simple renommage de Veo 3.1, et sur les dimensions qui comptent pour ceux qui construisent des produits vidéo IA — fidélité, montage, coût — ses forces et ses faiblesses sont très différentes des leaders du classement. À sept jours de Google I/O 2026 (19–20 mai), voici ce qui est désormais connu.
Ce qui a émergé cette semaine
Le 11 mai 2026, TestingCatalog et l’utilisateur X @Thomas16937378 ont extrait de nouveaux échantillons du flux de génération vidéo de l’application mobile Gemini. Le texte de la fiche modèle est passé d’un simple espace réservé (« Propulsé par Omni ») à une description complète du produit :
Créez avec Gemini Omni : découvrez notre nouveau modèle vidéo. Remixez vos vidéos, modifiez directement dans le chat, essayez un modèle, et plus encore.
Trois détails concrets l’accompagnaient :
- Identifiant interne du modèle :
bard_eac_video_generation_omni. « Bard EAC » est l’espace de noms interne de l’application Gemini pour les fonctionnalités expérimentales ; le suffixe_omniconfirme qu’il s’agit d’un modèle distinct plutôt que d’une variante de Veo. - Limite de 10 secondes sur les clips générés au niveau de prévisualisation actuel. Veo 3.1 est limité à 8 s nativement et 16 s avec extension ; Omni se situe actuellement entre les deux, sans possibilité d’extension visible pour l’instant.
- Nouvel onglet de limites d’utilisation dans les paramètres Gemini, indiquant un déploiement mesuré par crédits plutôt qu’un quota d’abonnement mensuel — cohérent avec la façon dont Google a lancé ses fonctionnalités agentiques plus coûteuses (Deep Research, Notebook Plus).
C’est une amélioration significative en termes de qualité des preuves. La fuite du 3 mai ne consistait qu’en du texte d’interface. Ici, on a du texte d’interface + un point d’accès fonctionnel + des résultats observables + une surface de facturation.
Les deux vidéos d’exemple que les gens ont vues
Les deux échantillons proviennent de l’application Gemini, les deux d’utilisateurs disposant d’un accès AI Pro ayant pu invoquer le modèle avant un probable retrait. Il vaut la peine de les décrire en détail car ils indiquent à quelle lignée de modèles Omni appartient.
Échantillon 1 — « Un professeur écrivant une démonstration mathématique d’identités trigonométriques sur un tableau noir traditionnel. » Les critiques ont jugé le rendu du texte « remarquablement bien » géré — les équations à la craie étaient lisibles et paraissaient mathématiquement plausibles plutôt que la soupe de symboles que produisaient les modèles vidéo précédents. Les mouvements de la main et du bras semblaient naturels. Le compte rendu de chromeunboxed signalait tout de même des « signes évidents d’IA dans le résultat final » sans préciser lesquels — probablement une combinaison de microsaccades non naturelles, d’artefacts sur le maillage de la main et d’une géométrie de la craie légèrement instable.
Échantillon 2 — « Deux hommes mangeant des spaghettis dans un restaurant haut de gamme. » Décrit comme « assez réaliste ». Le test de la torsion des pâtes est devenu un critère informel depuis un an car il sollicite tout ce qui peut mal tourner dans une vidéo en espace latent : contact ustensile-aliment, mouvement quasi-fluide et identité faciale cohérente malgré les occlusions. Omni s’en est sorti suffisamment bien pour être commenté, mais là encore avec la nuance que le seuil du « passable » a augmenté cette année — Seedance 2.0 et Wan 2.7 le franchissent tous deux de manière fiable.
Deux échantillons ne constituent pas un référentiel. Mais deux échantillons dans deux régimes de difficulté différents (texte dans l’image et physique des contacts), avec des critiques notant des résultats solides mais pas parfaits, suffisent à placer Omni dans le même niveau que Veo 3.1 — pas au-dessus en termes de fidélité brute, et clairement en dessous de Seedance 2.0.
Où Omni se distingue vraiment : le montage piloté par chat
Le résultat intéressant de la couverture pratique de la semaine est que la capacité remarquable d’Omni n’est pas la qualité de génération. C’est le montage. Plus précisément :
- Suppression de filigranes sur des clips en entrée, effectuée via des instructions en langage naturel dans le chat
- Remplacement d’objets dans une scène (« remplace la voiture rouge par une bleue »)
- Réécriture de scènes par tours de conversation — décrire ce qui doit changer, le modèle renvoie une version modifiée, on itère
Il s’agit d’un périmètre fonctionnel sensiblement différent de ce qu’exposent actuellement Seedance 2.0 Video-Edit ou Wan 2.7 Edit. Ces modèles excellent dans les modifications par instruction directe (« enlève les écouteurs », « change le manteau de la femme en rouge ») mais ne maintiennent pas une conversation de montage multi-tours sur un seul clip source. L’analogie la plus proche aujourd’hui est le flux de montage en langage naturel de Kling Omni Video O1, dont nous avons écrit en détail lors de son lancement.
Si Omni se déploie effectivement comme un éditeur vidéo centré sur le chat — et non simplement un autre point d’accès texte-vers-vidéo — c’est là que réside sa proposition de valeur unique. Google dispose de la pile LLM pour faire fonctionner la correction multi-tours nativement d’une façon que la plupart des fournisseurs de modèles vidéo purs ne peuvent pas égaler.
L’aspect coût
Le point de données le plus frappant : un testeur a rapporté que deux prompts vidéo ont consommé 86 % de son quota quotidien AI Pro. Cela représente environ 43 % d’une journée Pro par clip — un profil de coût comparable aux modèles vidéo de pointe, et non à la génération d’images niveau Flash.
Quelques implications :
- Le modèle de prévisualisation tournant dans l’application Gemini est presque certainement le niveau Pro/complet, pas Flash. TestingCatalog spécule qu’une variante Flash sera disponible simultanément, mais les échantillons que nous avons vus n’en proviennent pas.
- La consommation de crédits par clip à ce rythme correspond à quelque chose comme 0,30–0,50 $ par clip de 10 s en équivalent retail, ce qui est compétitif avec Veo 3.1 (0,50 $/s au prix de prévisualisation) mais plus cher que Seedance 2.0 Fast.
- Google introduira presque certainement des niveaux d’utilisation explicites lors de la présentation à I/O — le nouvel onglet de limites d’utilisation est révélateur. Attendez-vous à un niveau flash-coût pour les utilisateurs occasionnels et à un niveau pay-as-you-go mesuré dans AI Studio pour les développeurs.
Ce que nous pensons maintenant qu’Omni est réellement
Il y a trois semaines, trois lectures plausibles existaient : rebranding de Veo, modèle vidéo Gemini distinct, ou modèle omni-modal complet. Les preuves du 11 mai permettent de préciser :
- Identifiant de modèle distinct (suffixe
_omni, pas_veo) exclut un simple rebranding de Veo. Google ne renomme généralement pas les points d’accès de modèles existants lors des déploiements en prévisualisation. - Positionnement produit axé sur le montage — « remix, modification directement dans le chat » — n’est pas le langage qu’a utilisé Google pour Veo, qui a toujours été présenté comme texte-vers-vidéo + extension. Cela ressemble davantage à un modèle distinct avec un objectif d’entraînement différent.
- Aucune preuve de génération d’image dans aucun des échantillons fuités. Si c’était le modèle omni-modal unifié que le nom suggère, on s’attendrait à voir la génération d’images émerger du même point d’accès. Jusqu’à présent, chaque fuite a concerné uniquement la vidéo.
Lecture la plus probable à ce stade : Omni est un nouveau modèle vidéo entraîné par Gemini, coexistant avec Veo plutôt que le remplaçant, avec un positionnement produit axé en premier lieu sur le montage. Nano Banana montre que Google est prêt à différencier les marques au sein d’une même modalité (la génération d’images fonctionne sous les noms Nano Banana et Gemini 3 Flash Image). La coexistence Omni-et-Veo suit ce schéma.
Le rêve d’un modèle omni-modal pleinement unifié que le nom suggère est probablement encore une génération future. Ce qui sera lancé la semaine prochaine — si c’est lancé la semaine prochaine — est un éditeur vidéo compétitif avec la surface de chat native LLM de Google intégrée.
Ce que cela change pour l’évaluation
Si vous construisez quoi que ce soit qui touche à la vidéo IA, trois choses changent dans les deux prochaines semaines :
- Ajoutez un référentiel de montage à votre suite d’évaluation. La plupart des évaluations de modèles vidéo portent uniquement sur le texte-vers-vidéo. Si la proposition d’Omni est le montage piloté par chat, votre comparaison ne peut pas se limiter à la fidélité de génération — vous avez besoin d’une batterie de prompts « modifie ce clip » qui testent la cohérence multi-tours, la préservation de l’identité des objets tout au long des modifications, et l’adhérence aux instructions aux deuxième et troisième tours.
- Considérez le triangle Seedance 2.0 / Wan 2.7 / Omni comme l’ensemble de travail. Sora 2 et Veo 3.1 sont désormais mieux compris comme des références de génération précédente face à ce triangle. Chacun des trois possède une force distincte : Seedance mène sur la fidélité, Wan mène sur les entrées de référence multi-modales, Omni (provisoirement) mène sur le montage par chat.
- Prévoyez un budget pour la tarification niveau Pro. Le point de données des 43 % du quota quotidien est le signal le plus fort de la semaine. Si votre flux de travail implique de générer des clips à grande échelle, la version Flash sera plus importante que la version Pro. Suivez cette annonce en particulier.
La semaine à venir
Google I/O ouvre le 19 mai 2026. Le créneau keynote du mardi est traditionnellement celui des annonces Gemini et DeepMind. Une fuite pré-keynote aussi maîtrisée, aussi complète — texte de fiche modèle, vidéos d’exemple, surface de facturation, tout en une semaine — est cohérente avec un lancement qui a déjà passé la revue interne et attend simplement le calendrier.
Les quatre points à surveiller le jour J :
- Y a-t-il un niveau Flash, et quel est son coût ?
- La proposition de montage est-elle réelle, ou n’était-ce que du bruit sur un seul échantillon ? Plus précisément, Google montrera-t-il un montage multi-tours en direct sur scène ?
- Quel est le chemin vers l’API ? AI Studio ? Vertex ? Les deux ?
- Synchronisation audio : aucun des échantillons fuités ne précise si Omni génère de l’audio synchronisé comme le fait Veo 3.1. Si ce n’est pas le cas, c’est une lacune réelle.
Essayez les alternatives actuelles sur WaveSpeedAI
En attendant qu’Omni soit disponible, le reste du champ de la génération vidéo 2026 est en ligne sur WaveSpeedAI via une seule API :
- Seedance 2.0 — SOTA actuel sur la fidélité brute, avec des variantes Fast pour la faible latence
- Wan 2.7 — le modèle vidéo riche en références d’Alibaba
- Kling V3.0 Pro — l’option haute fidélité de Kuaishou
- Kling Omni Video O1 Edit — montage vidéo en langage naturel, l’analogie actuelle la plus proche de ce qu’Omni est annoncé être
- Sora 2 — l’offre d’OpenAI
- Veo 3.1 — le modèle vidéo Google actuel
Quand Gemini Omni sera disponible publiquement, attendez-vous à le comparer via la même API en quelques jours.
