Gemini Omni Flash veröffentlicht: 10-Sekunden-Multimodal-Video, SynthID-Wasserzeichen, Audio-Bearbeitung zurückgehalten
Google hat Gemini Omni Flash auf der I/O 2026 vorgestellt – ein einzelnes Modell, das Text, Bild, Audio und Video verarbeitet, um ein konsistentes Video-Ergebnis mit synchronem Audio zu erzeugen. Hier erfahren Sie, was veröffentlicht wurde, was nicht, und wie es sich von Veo unterscheidet.
Der UI-String-Leak vom 3. Mai und der Demo-Leak vom 11. Mai deuteten beide darauf hin. Ab dem 19. Mai 2026 ist Gemini Omni Flash live — das erste öffentliche Modell in Googles Omni-Framework, am gleichen Tag allgemein verfügbar in der Gemini-App, Google Flow und YouTube Shorts. Es generiert 10-sekündige Videoclips mit synchronisiertem Audio aus einem einzigen multimodalen Prompt und ermöglicht die Bearbeitung dieser Clips per Chat. Entscheidend ist, dass es keine Bearbeitung von Sprache oder Audio in generierten Videos erlaubt — diese Fähigkeit wird bewusst zurückgehalten.
Im Folgenden wird beschrieben, was tatsächlich ausgeliefert wurde, was die Pre-Launch-Leaks verpasst haben und wie Omni Flash sich bei Produktionsentscheidungen gegenüber Veo, Sora 2 und Seedance 2.0 positioniert.
Was ausgeliefert wurde
| Detail | Bestätigt |
|---|---|
| Modellname | Gemini Omni Flash |
| Generierungslänge | 10 Sekunden, mit synchronisiertem Audio |
| Eingaben | Text + Bild + Audio + Video (beliebige Kombination) |
| Ausgabe | Ein konsistentes Video — über Eingaben hinweg begründet, nicht zusammengesetzt |
| Bearbeitung | Konversationeller Chat („ändere die Beleuchtung”, „tausche den Hund gegen eine Katze”) |
| Wasserzeichen | SynthID in jeder Ausgabe eingebettet |
| Verteilung (Verbraucher) | Gemini-App, YouTube Shorts, YouTube Create, Flow |
| Verteilung (zahlende Abonnenten) | Gemini AI Plus (7,99 $/Monat), Pro, Ultra |
| Verteilung (Entwickler-API) | „In den kommenden Wochen” |
| Höherwertige Variante | Omni Pro geplant, kein Veröffentlichungsdatum |
Die 10-Sekunden-Begrenzung ist die interessanteste Produktentscheidung. Googles erklärter Grund auf der Bühne: „keine Modellbeschränkung, sondern eine Entscheidung, die sowohl auf dem Wunsch basiert, es in mehr Hände zu bringen, als auch auf der Erwartung, dass die meisten Nutzer noch keine viel längeren Videos erstellen möchten.” Das ist eine sanftere Rollout-Haltung als die 8-Sekunden-Begrenzung bei Veo 3.1, die eine architektonische Decke darstellte. Omni Flash kann vermutlich längere Videos generieren, sobald Google die Richtlinie lockert.
Was unsere Pre-Launch-Berichterstattung richtig und falsch lag
Richtig:
- Omni ist ein neues Modell, kein Veo-Rebranding. Architektur und Produktoberfläche sind deutlich unterschiedlich.
- Produkt-Positionierung mit Fokus auf Bearbeitung. Konversationelles Szenen-Umschreiben war der Demo-Schwerpunkt.
- Eine Flash- und Pro-Tier-Aufteilung stand bevor.
- Audiosynchronisierung war real und wurde am ersten Tag ausgeliefert.
Falsch:
- Die Formulierung „hinter Seedance 2.0 bei roher Wiedergabetreue” aus dem Leak vom 11. Mai wird durch nichts unterstützt, was Google auf der Bühne gezeigt hat. Die gestarteten Demos (eine Knetmasse-Erklärung der Proteinfaltung; eine Murmel, die mit physikalisch korrekten Soundeffekten springt) wurden gezielt ausgewählt, um Kontaktphysik, Materialien, Voice-over und mehrstufige Narrative zu betonen — Kategorien, in denen Seedance messbare Schwachstellen hatte. Ohne unabhängige Benchmarks können wir nicht sagen, dass Omni führt, aber die „hinter”-Formulierung war verfrüht.
- Der Datenpunkt „43 % des Tageskontingents an Kosten” aus den Leaks vom 11. Mai. Die Day-One-Preisgestaltung ist jetzt abonnementbasiert (7,99 $/Monat als Einstiegstarif) plus kostenloser Zugang über YouTube Shorts und YouTube Create. Die Geschichte der Kosten pro Clip wurde durch eine Geschichte des Verteilungsvolumens ersetzt.
Die vier Dinge, die Omni Flash von Veo unterscheiden
Dies ist die wichtigste Frage für Produktionsentscheidungen, und es gibt klare Antworten.
1. Eingaben
Veo 3.1: Text → Video. Bild → Video. Das war’s.
Omni Flash: Text + Bild + Audio + Video, alles in einem Prompt, wobei das Modell über alle Eingaben hinweg schlussfolgert, anstatt sie zusammenzufügen. Man kann ein Referenzbild einer Figur, eine Audiodatei mit dem gewünschten Dialog und ein Video mit der gewünschten Beleuchtung eingeben und erhält eine Ausgabe, die alle drei Anforderungen auflöst.
2. Bearbeitung
Veo 3.1: Textgestützte Neugenerierung. Jede Bearbeitung ist eine neue Generierung mit einem geänderten Prompt.
Omni Flash: Chat-basierte inkrementelle Bearbeitung. „Mach die Beleuchtung wärmer.” — und die nächste Antwort bearbeitet den vorhandenen Clip, während alles andere erhalten bleibt. Dies ist der Bereich, in dem sich die LLM-native Architektur bezahlt macht.
3. Audio
Veo 3.1: Synchronisiertes Audio mit dem Video.
Omni Flash: Synchronisiertes Audio plus die Möglichkeit, Eingabe-Audio als Generierungsbeschränkung zu verwenden. Aber — und das ist wichtig — Audio- und Sprachbearbeitung von generierten Videos wird zurückgehalten. Google liefert das Modell im Modus „kein Voice-over-Bearbeitung” aus Sicherheitsgründen, die offensichtlich mit der Deepfake-Gefahr in Wahljahren zusammenhängen. Es ist zu erwarten, dass sich das entspannt, sobald die Richtlinien und der Erkennungs-Stack sich eingespielt haben.
4. Verteilung
Veo 3.1: Vertex API, AI Studio und die Veo-App zu Premiumpreisen.
Omni Flash: Kostenloser Zugang über YouTube Shorts und YouTube Create ab dieser Woche. Bezahlter Zugang beginnt bei Google AI Plus für 7,99 $/Monat. Das ist ein völlig anderes Go-to-Market — Google nutzt YouTubes Distribution, um Omni vor Hunderten von Millionen Nutzern ohne zusätzliche Grenzkosten zu platzieren.
Was die Kombination aus SynthID und Audio-Zurückhaltung verrät
Google behandelt Omni Flash zuerst als Verbraucherprodukt und erst danach als Entwicklerprodukt. Die zwei Richtlinienentscheidungen, die das deutlich machen:
- SynthID ist nicht optional. Jede Ausgabe hat ein imperceptibles Wasserzeichen, das über die Gemini-App, Chrome und Search verifizierbar ist. Es gibt keinen API-Schalter, um dies zu deaktivieren. Für kommerzielle Anwendungsfälle, die saubere Ausgaben benötigen, befindet man sich auf der falschen Ebene, bis die Entwickler-API erscheint.
- Audio/Sprachbearbeitung wird zurückgehalten. Dies ist die risikoreichste Fähigkeit, die die Architektur unterstützt — die Möglichkeit, die Stimme in einem vorhandenen Video zu ändern. Das Zurückhalten signalisiert Googles Einschätzung, wo das regulatorische und Reputationsrisiko liegt. Planen Sie keine Produktions-Workflows um Fähigkeiten, die noch nicht ausgeliefert wurden.
Die Ankündigung von „Omni Pro” bestätigt dies. Google sagte ausdrücklich, dass Pro ankommt „wenn wir einen Stufensprung über Flash sehen” — nicht „wir werden bald ein Veröffentlichungsdatum haben.” Diese Formulierung ist konsistent mit einem Modell, das noch nicht fertig trainiert ist, nicht mit einem Modell, das auf eine Richtlinienprüfung wartet.
Wo das Entwickler heute stehen lässt
Drei konkrete Einschätzungen:
- Für verbraucherorientierte kreative Tools ist Omni Flash der neue Standard innerhalb von Googles Verteilungsoberfläche. Wenn Ihr Produkt eine Video-Erstellungs-App für Endnutzer ist, müssen Sie es speziell dagegen testen.
- Für Entwickler-Pipelines: abwarten. Die API kommt „in den kommenden Wochen” — was 2 oder 8 Wochen bedeuten könnte. Ohne API-Zugang und ohne einen Omni Pro-Veröffentlichungszeitplan hat sich das Feld der produktionstauglichen Videomodelle noch nicht wirklich bewegt. Veo 3.1, Seedance 2.0 und Sora 2 bleiben die Produktionsoptionen.
- Für die Evaluierung: Prompts jetzt vorbereiten. Wählen Sie drei Testkategorien: Kontaktphysik (die Murmel-Demo), Voice-over-Narration (die Knetmasse-Demo) und konversationelle Bearbeitung ohne Qualitätsverlust (die dritte Runde einer mehrstufigen Bearbeitungssitzung). Führen Sie diese mit Ihrem aktuellen Produktionsmodell durch, damit Sie die Baseline haben, bevor Omni Flash unter Ihrem API-Key erscheint.
Worauf zu achten ist
Vier Signale in den nächsten zwei bis vier Wochen:
- Der Launch der Entwickler-API. Preisgestaltung, Ratenlimits und ob die Vertex AI-Oberfläche AI Studios widerspiegelt. Die entscheidende Frage: Betten API-Aufrufe SynthID ein, und ist das für kommerzielle Konten umschaltbar?
- Längere Videodauern. Die 10-Sekunden-Begrenzung ist eine Richtlinienentscheidung. Wenn jemand das erste Mal einen 30-sekündigen Clip in freier Wildbahn generiert, signalisiert das Googles Vertrauen in die Sicherheits-Pipeline.
- Rückkehr der Audio-Bearbeitung. Wenn dies ausgeliefert wird, hat das Deepfake-Risikomodell die interne Überprüfung bestanden. Das ist die interessantere Fähigkeitsgeschichte als das Modell selbst.
- Das tatsächliche Benchmark-Profil von Omni Pro. Die Formulierung „Stufensprung über Flash” ist dieselbe Absicherung, die Anthropic vor Opus verwendete — was bedeutet, dass wir einen bedeutenden Fähigkeitssprung statt einer inkrementellen Veröffentlichung erwarten sollten. Achten Sie auf die Systemkarte.
Wenn die Entwickler-API erscheint und Omni Flash neben dem Rest der Video-Gen-Frontier zugänglich wird, ist ein Vergleich unter einem einzigen Schlüssel zu erwarten — neben Veo 3.1, Seedance, Sora 2 und Kling Omni Video O1. Das aktuelle Google-Modell-Lineup auf WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image und der Rest — ist noch heute unter dieser API verfügbar.
