Gemini Omni Flash veröffentlicht: 10-Sekunden-Multimodal-Video, SynthID-Wasserzeichen, Audio-Bearbeitung zurückgehalten

Der UI-String-Leak vom 3. Mai und der Demo-Leak vom 11. Mai deuteten beide darauf hin. Ab dem 19. Mai 2026 ist Gemini Omni Flash live — das erste öffentliche Modell in Googles Omni-Framework, am gleichen Tag allgemein verfügbar in der Gemini-App, Google Flow und YouTube Shorts. Es generiert 10-sekündige Videoclips mit synchronisiertem Audio aus einem einzigen multimodalen Prompt und ermöglicht die Bearbeitung dieser Clips per Chat. Entscheidend ist, dass es keine Bearbeitung von Sprache oder Audio in generierten Videos erlaubt — diese Fähigkeit wird bewusst zurückgehalten.

Im Folgenden wird beschrieben, was tatsächlich ausgeliefert wurde, was die Pre-Launch-Leaks verpasst haben und wie Omni Flash sich bei Produktionsentscheidungen gegenüber Veo, Sora 2 und Seedance 2.0 positioniert.

Was ausgeliefert wurde

Detail	Bestätigt
Modellname	Gemini Omni Flash
Generierungslänge	10 Sekunden, mit synchronisiertem Audio
Eingaben	Text + Bild + Audio + Video (beliebige Kombination)
Ausgabe	Ein konsistentes Video — über Eingaben hinweg begründet, nicht zusammengesetzt
Bearbeitung	Konversationeller Chat („ändere die Beleuchtung”, „tausche den Hund gegen eine Katze”)
Wasserzeichen	SynthID in jeder Ausgabe eingebettet
Verteilung (Verbraucher)	Gemini-App, YouTube Shorts, YouTube Create, Flow
Verteilung (zahlende Abonnenten)	Gemini AI Plus (7,99 $/Monat), Pro, Ultra
Verteilung (Entwickler-API)	„In den kommenden Wochen”
Höherwertige Variante	Omni Pro geplant, kein Veröffentlichungsdatum

Die 10-Sekunden-Begrenzung ist die interessanteste Produktentscheidung. Googles erklärter Grund auf der Bühne: „keine Modellbeschränkung, sondern eine Entscheidung, die sowohl auf dem Wunsch basiert, es in mehr Hände zu bringen, als auch auf der Erwartung, dass die meisten Nutzer noch keine viel längeren Videos erstellen möchten.” Das ist eine sanftere Rollout-Haltung als die 8-Sekunden-Begrenzung bei Veo 3.1, die eine architektonische Decke darstellte. Omni Flash kann vermutlich längere Videos generieren, sobald Google die Richtlinie lockert.

Was unsere Pre-Launch-Berichterstattung richtig und falsch lag

Richtig:

Omni ist ein neues Modell, kein Veo-Rebranding. Architektur und Produktoberfläche sind deutlich unterschiedlich.
Produkt-Positionierung mit Fokus auf Bearbeitung. Konversationelles Szenen-Umschreiben war der Demo-Schwerpunkt.
Eine Flash- und Pro-Tier-Aufteilung stand bevor.
Audiosynchronisierung war real und wurde am ersten Tag ausgeliefert.

Falsch:

Die Formulierung „hinter Seedance 2.0 bei roher Wiedergabetreue” aus dem Leak vom 11. Mai wird durch nichts unterstützt, was Google auf der Bühne gezeigt hat. Die gestarteten Demos (eine Knetmasse-Erklärung der Proteinfaltung; eine Murmel, die mit physikalisch korrekten Soundeffekten springt) wurden gezielt ausgewählt, um Kontaktphysik, Materialien, Voice-over und mehrstufige Narrative zu betonen — Kategorien, in denen Seedance messbare Schwachstellen hatte. Ohne unabhängige Benchmarks können wir nicht sagen, dass Omni führt, aber die „hinter”-Formulierung war verfrüht.
Der Datenpunkt „43 % des Tageskontingents an Kosten” aus den Leaks vom 11. Mai. Die Day-One-Preisgestaltung ist jetzt abonnementbasiert (7,99 $/Monat als Einstiegstarif) plus kostenloser Zugang über YouTube Shorts und YouTube Create. Die Geschichte der Kosten pro Clip wurde durch eine Geschichte des Verteilungsvolumens ersetzt.

Die vier Dinge, die Omni Flash von Veo unterscheiden

Dies ist die wichtigste Frage für Produktionsentscheidungen, und es gibt klare Antworten.

1. Eingaben

Veo 3.1: Text → Video. Bild → Video. Das war’s.

Omni Flash: Text + Bild + Audio + Video, alles in einem Prompt, wobei das Modell über alle Eingaben hinweg schlussfolgert, anstatt sie zusammenzufügen. Man kann ein Referenzbild einer Figur, eine Audiodatei mit dem gewünschten Dialog und ein Video mit der gewünschten Beleuchtung eingeben und erhält eine Ausgabe, die alle drei Anforderungen auflöst.

2. Bearbeitung

Veo 3.1: Textgestützte Neugenerierung. Jede Bearbeitung ist eine neue Generierung mit einem geänderten Prompt.

Omni Flash: Chat-basierte inkrementelle Bearbeitung. „Mach die Beleuchtung wärmer.” — und die nächste Antwort bearbeitet den vorhandenen Clip, während alles andere erhalten bleibt. Dies ist der Bereich, in dem sich die LLM-native Architektur bezahlt macht.

3. Audio

Veo 3.1: Synchronisiertes Audio mit dem Video.

Omni Flash: Synchronisiertes Audio plus die Möglichkeit, Eingabe-Audio als Generierungsbeschränkung zu verwenden. Aber — und das ist wichtig — Audio- und Sprachbearbeitung von generierten Videos wird zurückgehalten. Google liefert das Modell im Modus „kein Voice-over-Bearbeitung” aus Sicherheitsgründen, die offensichtlich mit der Deepfake-Gefahr in Wahljahren zusammenhängen. Es ist zu erwarten, dass sich das entspannt, sobald die Richtlinien und der Erkennungs-Stack sich eingespielt haben.

4. Verteilung

Veo 3.1: Vertex API, AI Studio und die Veo-App zu Premiumpreisen.

Omni Flash: Kostenloser Zugang über YouTube Shorts und YouTube Create ab dieser Woche. Bezahlter Zugang beginnt bei Google AI Plus für 7,99 $/Monat. Das ist ein völlig anderes Go-to-Market — Google nutzt YouTubes Distribution, um Omni vor Hunderten von Millionen Nutzern ohne zusätzliche Grenzkosten zu platzieren.

Was die Kombination aus SynthID und Audio-Zurückhaltung verrät

Google behandelt Omni Flash zuerst als Verbraucherprodukt und erst danach als Entwicklerprodukt. Die zwei Richtlinienentscheidungen, die das deutlich machen:

SynthID ist nicht optional. Jede Ausgabe hat ein imperceptibles Wasserzeichen, das über die Gemini-App, Chrome und Search verifizierbar ist. Es gibt keinen API-Schalter, um dies zu deaktivieren. Für kommerzielle Anwendungsfälle, die saubere Ausgaben benötigen, befindet man sich auf der falschen Ebene, bis die Entwickler-API erscheint.
Audio/Sprachbearbeitung wird zurückgehalten. Dies ist die risikoreichste Fähigkeit, die die Architektur unterstützt — die Möglichkeit, die Stimme in einem vorhandenen Video zu ändern. Das Zurückhalten signalisiert Googles Einschätzung, wo das regulatorische und Reputationsrisiko liegt. Planen Sie keine Produktions-Workflows um Fähigkeiten, die noch nicht ausgeliefert wurden.

Die Ankündigung von „Omni Pro” bestätigt dies. Google sagte ausdrücklich, dass Pro ankommt „wenn wir einen Stufensprung über Flash sehen” — nicht „wir werden bald ein Veröffentlichungsdatum haben.” Diese Formulierung ist konsistent mit einem Modell, das noch nicht fertig trainiert ist, nicht mit einem Modell, das auf eine Richtlinienprüfung wartet.

Wo das Entwickler heute stehen lässt

Drei konkrete Einschätzungen:

Für verbraucherorientierte kreative Tools ist Omni Flash der neue Standard innerhalb von Googles Verteilungsoberfläche. Wenn Ihr Produkt eine Video-Erstellungs-App für Endnutzer ist, müssen Sie es speziell dagegen testen.
Für Entwickler-Pipelines: abwarten. Die API kommt „in den kommenden Wochen” — was 2 oder 8 Wochen bedeuten könnte. Ohne API-Zugang und ohne einen Omni Pro-Veröffentlichungszeitplan hat sich das Feld der produktionstauglichen Videomodelle noch nicht wirklich bewegt. Veo 3.1, Seedance 2.0 und Sora 2 bleiben die Produktionsoptionen.
Für die Evaluierung: Prompts jetzt vorbereiten. Wählen Sie drei Testkategorien: Kontaktphysik (die Murmel-Demo), Voice-over-Narration (die Knetmasse-Demo) und konversationelle Bearbeitung ohne Qualitätsverlust (die dritte Runde einer mehrstufigen Bearbeitungssitzung). Führen Sie diese mit Ihrem aktuellen Produktionsmodell durch, damit Sie die Baseline haben, bevor Omni Flash unter Ihrem API-Key erscheint.

Worauf zu achten ist

Vier Signale in den nächsten zwei bis vier Wochen:

Der Launch der Entwickler-API. Preisgestaltung, Ratenlimits und ob die Vertex AI-Oberfläche AI Studios widerspiegelt. Die entscheidende Frage: Betten API-Aufrufe SynthID ein, und ist das für kommerzielle Konten umschaltbar?
Längere Videodauern. Die 10-Sekunden-Begrenzung ist eine Richtlinienentscheidung. Wenn jemand das erste Mal einen 30-sekündigen Clip in freier Wildbahn generiert, signalisiert das Googles Vertrauen in die Sicherheits-Pipeline.
Rückkehr der Audio-Bearbeitung. Wenn dies ausgeliefert wird, hat das Deepfake-Risikomodell die interne Überprüfung bestanden. Das ist die interessantere Fähigkeitsgeschichte als das Modell selbst.
Das tatsächliche Benchmark-Profil von Omni Pro. Die Formulierung „Stufensprung über Flash” ist dieselbe Absicherung, die Anthropic vor Opus verwendete — was bedeutet, dass wir einen bedeutenden Fähigkeitssprung statt einer inkrementellen Veröffentlichung erwarten sollten. Achten Sie auf die Systemkarte.

Wenn die Entwickler-API erscheint und Omni Flash neben dem Rest der Video-Gen-Frontier zugänglich wird, ist ein Vergleich unter einem einzigen Schlüssel zu erwarten — neben Veo 3.1, Seedance, Sora 2 und Kling Omni Video O1. Das aktuelle Google-Modell-Lineup auf WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image und der Rest — ist noch heute unter dieser API verfügbar.

Was ausgeliefert wurde

Was unsere Pre-Launch-Berichterstattung richtig und falsch lag

Die vier Dinge, die Omni Flash von Veo unterscheiden

1. Eingaben

2. Bearbeitung

3. Audio

4. Verteilung

Was die Kombination aus SynthID und Audio-Zurückhaltung verrät

Wo das Entwickler heute stehen lässt

Worauf zu achten ist

Verwandte Artikel

Grok Imagine Video 1.5: xAIs Bild-zu-Video-Modell mit nativem Audio

Vidu Q3 API: Beseitigung der zentralen Engpässe bei Enterprise-KI-Videos für globale Entwickler und B2B-Teams

Was ist NVIDIA Cosmos3-Nano? Das 16B Omni-Weltmodell für physische KI

Gemini Omni Flash vs. Seedance 2.0 vs. Kling 3.0: Das beste KI-Videomodell für multimodale Erstellung

Kling 3.0 Omni erklärt: Multi-Shot-Storyboarding, nativer Audio und wo es Veo übertrifft

Runways Modell-Marktplatz-Strategie: Was das für KI-Video-APIs bedeutet