Gemini Omni Flash est disponible : vidéo multi-modale en 10 secondes, watermark SynthID, édition audio non incluse
Google a lancé Gemini Omni Flash à I/O 2026 — un seul modèle capable de raisonner sur du texte, des images, de l'audio et de la vidéo pour produire une sortie vidéo cohérente avec audio synchronisé. Voici ce qui a été livré, ce qui ne l'a pas été, et en quoi il diffère de Veo.
La fuite de chaînes UI du 3 mai et la fuite de démonstration du 11 mai l’avaient toutes deux annoncé. Depuis le 19 mai 2026, Gemini Omni Flash est en ligne — le premier modèle public du cadre Omni de Google, disponible en accès général le même jour dans l’application Gemini, Google Flow et YouTube Shorts. Il génère des clips vidéo de 10 secondes avec audio synchronisé à partir d’une seule invite multimodale, et vous permet de modifier ces clips via le chat. Il ne vous permet pas de modifier la parole ou l’audio dans les vidéos générées — cette fonctionnalité est délibérément retenue.
Ce qui suit est ce qui a réellement été livré, ce que les fuites pré-lancement ont manqué, et comment Omni Flash se positionne face à Veo, Sora 2 et Seedance 2.0 dans les décisions de production.
Ce qui a été livré
| Détail | Confirmé |
|---|---|
| Nom du modèle | Gemini Omni Flash |
| Durée de génération | 10 secondes, avec audio synchronisé |
| Entrées | Texte + image + audio + vidéo (toute combinaison) |
| Sortie | Une vidéo cohérente — raisonnée à partir des entrées, non assemblée |
| Modification | Chat conversationnel (« change l’éclairage », « remplace le chien par un chat ») |
| Filigrane | SynthID intégré dans chaque sortie |
| Distribution (grand public) | Application Gemini, YouTube Shorts, YouTube Create, Flow |
| Distribution (abonnés payants) | Gemini AI Plus (7,99 $/mois), Pro, Ultra |
| Distribution (API développeur) | « Dans les prochaines semaines » |
| Variante haut de gamme | Omni Pro prévu, sans date de sortie |
La limite de 10 secondes est la décision produit la plus intéressante. La raison officielle de Google sur scène : « pas une limitation du modèle, mais plutôt une décision fondée à la fois sur le désir de le mettre entre plus de mains et sur l’anticipation que la plupart des utilisateurs ne voudront pas encore créer de vidéos beaucoup plus longues. » C’est une posture de déploiement plus prudente que la limite de 8 secondes de Veo 3.1, qui était un plafond architectural. Omni Flash peut vraisemblablement aller plus loin dès que Google assouplit la politique.
Ce que notre couverture pré-lancement a bien et mal anticipé
Ce qui était juste :
- Omni est un nouveau modèle, pas une refonte de Veo. L’architecture et la surface produit sont distinctement différentes.
- Positionnement produit axé sur la modification. La réécriture conversationnelle de scènes était l’emphase des démonstrations.
- Une division en niveaux Flash + Pro était en préparation.
- La synchronisation audio était réelle et livrée dès le premier jour.
Ce qui était faux :
- Le cadrage « en retrait de Seedance 2.0 sur la fidélité brute » de la fuite du 11 mai n’est soutenu par rien de ce que Google a montré sur scène. Les démos lancées (un explicatif en pâte à modeler sur le repliement des protéines ; une bille rebondissant avec des effets sonores fidèles à la physique) ont été spécifiquement choisies pour mettre à l’épreuve la physique des contacts, les matériaux, la narration vocale et la narration en plusieurs étapes — des catégories où Seedance a eu des points faibles mesurables. Sans benchmarks indépendants, nous ne pouvons pas affirmer qu’Omni est en tête, mais le cadrage « en retrait » était prématuré.
- Le point de données sur le coût à 43 % du quota quotidien des fuites du 11 mai. La tarification au premier jour est désormais par abonnement (niveau de départ à 7,99 $/mois) plus un accès gratuit via YouTube Shorts et YouTube Create. Le récit du coût par clip a été remplacé par un récit de volume de distribution.
Les quatre éléments qui distinguent Omni Flash de Veo
C’est la question la plus importante pour les décisions de production, et il y a des réponses claires.
1. Les entrées
Veo 3.1 : texte → vidéo. Image → vidéo. C’est tout.
Omni Flash : texte + image + audio + vidéo, le tout en une seule invite, le modèle raisonnant à travers elles plutôt que de les concaténer. Vous pouvez lui donner une image de référence d’un personnage, un fichier audio du dialogue que vous voulez qu’il prononce, et une vidéo de l’éclairage souhaité, et obtenir une sortie unique qui résout les trois contraintes.
2. La modification
Veo 3.1 : régénération par invite textuelle. Chaque modification est une nouvelle génération avec une invite modifiée.
Omni Flash : modification incrémentale basée sur le chat. « Rends l’éclairage plus chaud. » — et la réponse suivante modifie le clip existant en préservant tout le reste. C’est le domaine où l’architecture native LLM porte ses fruits.
3. L’audio
Veo 3.1 : audio synchronisé avec la vidéo.
Omni Flash : audio synchronisé plus la possibilité d’utiliser l’audio d’entrée comme contrainte de génération. Mais — et c’est important — la modification audio et vocale des vidéos générées est retenue. Google livre le modèle en mode « sans modification de narration vocale » pour des raisons de sécurité qui concernent manifestement l’exposition aux deepfakes en année électorale. Cette restriction devrait s’assouplir une fois que la politique et la pile de détection seront stabilisées.
4. La distribution
Veo 3.1 : API Vertex, AI Studio et l’application Veo à des tarifs premium.
Omni Flash : accès gratuit via YouTube Shorts et YouTube Create dès cette semaine. L’accès payant commence à 7,99 $/mois avec Google AI Plus. C’est une mise sur le marché totalement différente — Google utilise la distribution de YouTube pour mettre Omni devant des centaines de millions d’utilisateurs sans coût marginal.
Ce que la combinaison SynthID + rétention audio vous indique
Google traite Omni Flash comme un produit grand public d’abord et un produit développeur ensuite. Les deux choix de politique qui le rendent évident :
- SynthID n’est pas optionnel. Chaque sortie comporte un filigrane imperceptible vérifiable via l’application Gemini, Chrome et Search. Il n’y a pas de bouton API pour le désactiver. Pour les cas d’usage commerciaux nécessitant une sortie propre, vous êtes au mauvais niveau jusqu’à ce que l’API développeur soit disponible.
- La modification audio/vocale est retenue. C’est la fonctionnalité la plus risquée que l’architecture prend en charge — la capacité de modifier la voix dans une vidéo existante. La retenir signale la lecture par Google des risques réglementaires et de réputation. Ne planifiez pas de flux de production autour de fonctionnalités qui ne sont pas encore disponibles.
L’annonce d’« Omni Pro » renforce cela. Google a explicitement déclaré que Pro arrive « quand nous observons un bond qualitatif au-dessus de Flash » — pas « nous aurons bientôt une date de sortie ». Cette formulation est cohérente avec un modèle qui n’a pas fini son entraînement, pas un modèle bloqué par une révision de politique.
Où cela laisse les développeurs aujourd’hui
Trois lectures concrètes :
- Pour les outils créatifs grand public, Omni Flash est le nouveau standard au sein de la surface de distribution de Google. Si votre produit est une application de création vidéo destinée aux utilisateurs finaux, vous devrez le tester spécifiquement.
- Pour les pipelines développeurs, patientez. L’API arrive « dans les prochaines semaines » — ce qui peut signifier 2 semaines ou 8. Sans accès API et sans calendrier de sortie d’Omni Pro, le champ des modèles vidéo de niveau production n’a pas réellement bougé. Veo 3.1, Seedance 2.0 et Sora 2 restent les options de production.
- Pour l’évaluation, préparez vos invites maintenant. Choisissez trois catégories de test : physique des contacts (la démo de la bille), narration vocale (la démo en pâte à modeler) et modification conversationnelle sans dégradation (le troisième tour d’une session de modification en plusieurs tours). Exécutez-les sur votre modèle de production actuel pour avoir la référence avant qu’Omni Flash n’apparaisse sous votre clé API.
Ce qu’il faut surveiller
Quatre signaux au cours des deux à quatre prochaines semaines :
- Le lancement de l’API développeur. La tarification, les limites de débit, et si la surface Vertex AI reflète celle d’AI Studio. La question difficile : les appels API intègrent-ils SynthID, et cela est-il configurable pour les comptes commerciaux ?
- Des durées vidéo plus longues. La limite de 10 secondes est une décision de politique. La première fois que quelqu’un génère un clip de 30 secondes dans la nature, cela signalera la confiance de Google dans le pipeline de sécurité.
- Le retour de la modification audio. Quand cela sera livré, ce sera le moment où le modèle de risque deepfake aura passé la révision interne. C’est l’histoire de fonctionnalité la plus intéressante que le modèle lui-même.
- Le profil de benchmark réel d’Omni Pro. Le cadrage « bond qualitatif au-dessus de Flash » est la même couverture qu’Anthropic utilisait avant Opus — ce qui signifie qu’il faut s’attendre à un saut de capacité significatif plutôt qu’une sortie incrémentale. Guettez la fiche système.
Quand l’API développeur sera disponible et qu’Omni Flash deviendra accessible aux côtés du reste de la frontière de la génération vidéo, attendez-vous à le comparer sous une seule clé — aux côtés de Veo 3.1, Seedance, Sora 2 et Kling Omni Video O1. La gamme actuelle de modèles Google sur WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image, et le reste — est disponible aujourd’hui sous cette même API.
