Gemini Omni Demos geleakt — Das kann Googles neues Videomodell wirklich

Als wir am 3. Mai über den ersten Omni-Leak berichteten, bestand die gesamte Geschichte aus einem einzigen UI-String. Acht Tage später hat sich das Bild erheblich vervollständigt. Die Gemini-Mobile-App zeigte tatsächliche Beispielvideos, die vom Modell generiert wurden, die interne Modell-ID wurde geleakt (bard_eac_video_generation_omni), und es gibt mittlerweile genug praktische Eindrücke in der Öffentlichkeit, um erste Einschätzungen vorzunehmen.

Die Kurzfassung: Omni ist real, es ist mit ziemlicher Sicherheit ein neues Modell und kein Veo-3.1-Umbenennung, und bei den Dimensionen, die für Menschen wichtig sind, die KI-Videoprodukte entwickeln – Qualität, Bearbeitung, Kosten – hat es ganz andere Stärken und Schwächen als die Anführer der Rangliste. Sieben Tage vor Google I/O 2026 (19.–20. Mai) ist hier zusammengefasst, was jetzt bekannt ist.

Was diese Woche aufgetaucht ist

Am 11. Mai 2026 riefen TestingCatalog und X-Nutzer @Thomas16937378 neue Beispiele aus dem Videogenerierungs-Flow der Gemini-Mobile-App ab. Der Text der Modellkarte wechselte von einem Platzhalter („Powered by Omni”) zu einer vollständigen Produktbeschreibung:

Erstelle mit Gemini Omni: Lerne unser neues Videomodell kennen. Remixe deine Videos, bearbeite sie direkt im Chat, probiere eine Vorlage aus und mehr.

Drei konkrete Details kamen damit:

Interne Modell-ID: bard_eac_video_generation_omni. „Bard EAC” ist der interne Namespace der Gemini-App für experimentelle Funktionen; das _omni-Suffix bestätigt, dass dies als eigenständiges Modell und nicht als Veo-Variante behandelt wird.
10-Sekunden-Limit für generierte Clips auf der aktuellen Vorschau-Ebene. Veo 3.1 begrenzt nativ auf 8s und mit Verlängerung auf 16s; Omni liegt aktuell dazwischen, ohne dass bisher ein Verlängerungspfad sichtbar ist.
Neuer Tab für Nutzungslimits in den Gemini-Einstellungen, der auf ein kreditbasiertes Rollout hindeutet statt auf eine monatliche Abonnementkontingent – konsistent damit, wie Google kostspieligere agentische Funktionen veröffentlicht hat (Deep Research, Notebook Plus).

Das ist eine bedeutende Verbesserung der Beweisqualität. Der Leak vom 3. Mai war nur UI-Text. Jetzt handelt es sich um UI-Text + funktionierenden Endpunkt + beobachtbare Ausgaben + eine Abrechnungsoberfläche.

Die zwei Beispielvideos, die Leute gesehen haben

Beide Beispiele stammen aus der Gemini-App, beide von Nutzern mit AI Pro-Zugang, die das Modell aufrufen konnten, bevor ein vermutlicher Rollback erfolgte. Eine detaillierte Beschreibung lohnt sich, da sie Aufschluss darüber gibt, welcher Modell-Linie Omni angehört.

Beispiel 1 — „Ein Professor schreibt einen mathematischen Beweis für trigonometrische Identitäten auf einer traditionellen Tafel.” Rezensenten lobten das Text-Rendering als „bemerkenswert gut” – die Kreidegleichungen waren lesbar und sahen mathematisch plausibel aus, anstatt des Symbolsalats, den frühere Videomodelle produziert haben. Hand- und Armbewegungen wirkten natürlich. Das Chromeunboxed-Writeup merkte dennoch „offensichtliche KI-Merkmale im Endergebnis” an, ohne zu spezifizieren welche – wahrscheinlich eine Kombination aus unnatürlichen Mikrosakkaden, Handnetz-Artefakten und leicht driftender Kreidegeometrie.

Beispiel 2 — „Zwei Männer essen Spaghetti in einem gehobenen Restaurant.” Beschrieben als „ziemlich realistisch.” Der Pasta-Dreh-Test ist seit einem Jahr ein inoffizieller Benchmark, weil er alles stresst, was bei Videomodellen im latenten Raum schiefläuft: Kontakt zwischen Besteck und Essen, flüssigkeitsähnliche Bewegung und konsistente Gesichtsidentität durch Verdeckung. Omni hat das gut genug gemeistert, um darüber zu berichten, aber wieder mit dem Vorbehalt, dass die Messlatte für „passabel” in diesem Jahr gestiegen ist – Seedance 2.0 und Wan 2.7 überspringen sie beide zuverlässig.

Zwei Beispiele sind kein Benchmark. Aber zwei Beispiele in zwei verschiedenen Schwierigkeitsgraden (Text im Bild und Kontaktphysik), beide mit Rezensenten, die starke, aber nicht makellose Ergebnisse notieren, reichen aus, um Omni in dieselbe Kategorie wie Veo 3.1 einzuordnen – nicht darüber bei roher Qualität, und klar unter Seedance 2.0.

Wo Omni wirklich führt: chatgesteuerte Bearbeitung

Das interessante Ergebnis aus den praktischen Berichten der Woche ist, dass Omniss herausragende Fähigkeit nicht die Generierungsqualität ist. Es ist die Bearbeitung. Konkret:

Wasserzeichen-Entfernung aus Eingabe-Clips, ausgeführt über natürlichsprachliche Chat-Anweisungen
Objekt-Ersetzung innerhalb einer Szene („Tausche das rote Auto gegen ein blaues aus”)
Szenen-Umschreibungen durch konversationellen Austausch – beschreibe, was sich ändern soll, das Modell gibt eine bearbeitete Version zurück, iteriere

Das ist ein bedeutend anderer Funktionsbereich als das, was Seedance 2.0 Video-Edit oder Wan 2.7 Edit derzeit bieten. Diese Modelle sind hervorragend bei befehlsartigen Anweisungsbearbeitungen („Entferne die Kopfhörer”, „Ändere den Mantel der Frau auf Rot”), aber sie führen kein mehrstufiges Bearbeitungsgespräch zu einem einzelnen Quell-Clip. Das nächste Analogon heute ist der natürlichsprachliche Bearbeitungs-Flow von Kling Omni Video O1, über den wir detailliert geschrieben haben, als er veröffentlicht wurde.

Wenn Omni tatsächlich als chat-erster Video-Editor erscheint – nicht nur als weiterer Text-zu-Video-Endpunkt – das ist die Geschichte des einzigartigen Wertangebots. Google verfügt über den LLM-Stack, um mehrstufige Korrekturen nativ funktionieren zu lassen, auf eine Weise, die die meisten reinen Videomodell-Anbieter nicht können.

Die Kostensituation

Der bei weitem auffälligste Datenpunkt: Ein Tester berichtete, dass zwei Video-Prompts 86 % seines täglichen AI Pro-Kontingents verbrauchten. Das entspricht ungefähr 43 % eines Pro-Tages pro Clip – ein Kostenprofil, das mit Frontier-Videomodellen übereinstimmt, nicht mit Flash-Tier-Bildgenerierung.

Einige Implikationen:

Das in der Gemini-App laufende Vorschaumodell ist mit ziemlicher Sicherheit die Pro/Vollversion, nicht Flash. TestingCatalog spekuliert, dass eine Flash-Variante parallel erscheinen wird, aber die gesehenen Beispiele stammen nicht davon.
Kreditverbrauch pro Clip in dieser Rate entspricht etwa 0,30–0,50 $ pro 10-Sekunden-Clip im Einzelhandels-Äquivalent, was mit Veo 3.1 (0,50 $/s zu Vorschaupreisen) wettbewerbsfähig, aber teurer als Seedance 2.0 Fast ist.
Google wird beim I/O-Reveal fast sicher explizite Nutzungsstufen einführen – der neue Tab für Nutzungslimits ist ein Hinweis. Erwarte eine Flash-Kostenstufe für Gelegenheitsnutzer und eine nutzungsbasierte Pay-as-you-go-Stufe in AI Studio für Entwickler.

Was wir jetzt denken, was Omni eigentlich ist

Vor drei Wochen gab es drei plausible Lesarten: Veo-Umbenennung, separates Gemini-Videomodell oder vollständiges Omni-Modalitätsmodell. Die Beweise vom 11. Mai schränken das ein:

Separate Modell-ID (_omni-Suffix, nicht _veo) schließt eine direkte Veo-Umbenennung aus. Google benennt bestehende Modellendpunkte während Vorschau-Rollouts normalerweise nicht um.
Bearbeitungsfokussiertes Produktframing – „remixe, bearbeite direkt im Chat” – ist nicht die Sprache, die Google für Veo verwendet hat, das immer als Text-zu-Video + Verlängerung positioniert wurde. Dies liest sich eher wie ein separates Modell mit einem anderen Trainingsziel.
Kein Bild-Ausgabe-Nachweis in irgendeinem geleakten Beispiel. Wenn dies das einheitliche Omni-Modalitätsmodell wäre, das der Name suggeriert, würde man erwarten, Bildgenerierung vom selben Endpunkt zu sehen. Bisher war jeder Leak nur video-orientiert.

Wahrscheinlichste Einschätzung zu diesem Zeitpunkt: Omni ist ein neues, Gemini-trainiertes Videomodell, das neben Veo steht, anstatt es zu ersetzen, mit einer bearbeitungsorientierten Produktpositionierung. Nano Banana zeigt, dass Google bereit ist, innerhalb derselben Modalität markengetrennt zu agieren (Text-zu-Bild läuft sowohl unter Nano Banana als auch unter Gemini 3 Flash Image-Namen). Das Nebeneinander von Omni und Veo spiegelt dieses Muster wider.

Der vollständig einheitliche Omni-Modalitätstraum, den der Name suggeriert, ist wahrscheinlich noch eine zukünftige Generation. Was nächste Woche erscheint – wenn es nächste Woche erscheint – ist ein wettbewerbsfähiger Video-Editor mit Googles LLM-nativem Chat-Interface.

Was sich für die Evaluierung ändert

Wenn du etwas baust, das KI-Video berührt, verschieben sich in den nächsten zwei Wochen drei Dinge:

Füge deinem Evaluierungs-Suite einen Bearbeitungs-Benchmark hinzu. Die meisten Videomodell-Evaluierungen sind nur Text-zu-Video. Wenn Omniss Pitch chatgesteuerte Bearbeitung ist, kann dein Vergleich nicht nur Generierungsqualität sein – du brauchst eine Reihe von „Bearbeite diesen Clip”-Prompts, die mehrstufige Kohärenz, Objektidentitätserhaltung durch Bearbeitungen und Anleitungstreue im zweiten und dritten Durchgang testen.
Behandle das Seedance 2.0 / Wan 2.7 / Omni-Dreieck als Arbeitsmenge. Sora 2 und Veo 3.1 sind jetzt am besten als Referenzen der vorherigen Generation gegenüber diesem Dreieck zu verstehen. Jedes der drei hat eine distinkte Stärke: Seedance führt bei Qualität, Wan führt bei multimodalen Referenzeingaben, Omni (vorläufig) führt bei Chat-Bearbeitung.
Budget für Pro-Tier-Preise einplanen. Der 43%-des-täglichen-Kontingents-Datenpunkt ist das lauteste Signal der Woche. Wenn dein Workflow die Generierung von Clips in großem Maßstab beinhaltet, wird die Flash-Tier-Veröffentlichung mehr zählen als der Pro-Tier. Verfolge speziell diese Ankündigung.

Die kommende Woche

Google I/O öffnet am 19. Mai 2026. Der Dienstags-Keynote-Slot ist der Ort, wo Gemini- und DeepMind-Ankündigungen traditionell landen. Ein Pre-Keynote-Leak dieser Kontrolliertheit, dieser Vollständigkeit – Modellkartentext, Beispielvideos, Abrechnungsoberfläche, alles in einer Woche – ist konsistent mit einem Launch, der die interne Überprüfung bereits bestanden hat und auf den Kalender wartet.

Die vier Dinge, die man am Tag beobachten sollte:

Gibt es eine Flash-Stufe, und was kostet sie?
Ist der Bearbeitungs-Pitch real, oder war das ein Einzelbeispiel-Rauschen? Konkret: Zeigt Google mehrstufige Live-Bearbeitung auf der Bühne?
Was ist der API-Pfad? AI Studio? Vertex? Beides?
Audio-Sync: Keines der geleakten Beispiele gibt Aufschluss darüber, ob Omni synchronisierten Audio generiert, wie Veo 3.1 es tut. Wenn nicht, ist das eine echte Lücke.

Probiere die aktuellen Alternativen auf WaveSpeedAI

Bis Omni erscheint, ist der Rest des Video-Gen-Felds 2026 auf WaveSpeedAI unter einer API live:

Seedance 2.0 – aktueller SOTA bei roher Qualität, mit Fast-Varianten für niedrige Latenz
Wan 2.7 – Alibabas referenzreiches Videomodell
Kling V3.0 Pro – Kuaishous hochqualitative Option
Kling Omni Video O1 Edit – natürlichsprachliche Videobearbeitung, das nächste aktuelle Analogon zu dem, was Omni versprochen wird
Sora 2 – OpenAIs Angebot
Veo 3.1 – aktuelles Google-Videomodell

Wenn Gemini Omni öffentlich erscheint, erwarte, es innerhalb von Tagen unter derselben API zu vergleichen.

Was diese Woche aufgetaucht ist

Die zwei Beispielvideos, die Leute gesehen haben

Wo Omni wirklich führt: chatgesteuerte Bearbeitung

Die Kostensituation

Was wir jetzt denken, was Omni eigentlich ist

Was sich für die Evaluierung ändert

Die kommende Woche

Probiere die aktuellen Alternativen auf WaveSpeedAI

Verwandte Artikel

GPT-5.6 tauchte in OpenAIs Codex-Logs auf — was das wirklich bedeutet

Seedance 2.0 Kompletter Leitfaden: Multimodale Videoerstellung

Googles mysteriöses 'Omni'-Videomodell: Was der Gemini-UI-Leak uns vor dem I/O 2026 verrät

PixVerse C1 Image-to-Video auf WaveSpeedAI

PixVerse C1 Text-zu-Video auf WaveSpeedAI

PixVerse C1 Transition auf WaveSpeedAI