← Blog

Gemini 3.5 Omni und Omni Flash: Ein Multimodaler Tracker

Google hat Gemini Omni als multimodales Weltmodell vorgestellt. Hier erfahren Sie, was Entwickler überprüfen können und was im Bereich der multimodalen Generierung zu beobachten ist.

By Dora 10 min read
Gemini 3.5 Omni und Omni Flash: Ein Multimodaler Tracker

Eine Arbeitsnotiz darüber, was Google tatsächlich geliefert hat, was noch eine Demo ist und was ein Entwickler diese Woche damit anfangen sollte.

Ich habe einen Nachmittag damit verbracht herauszufinden, ob ich Gemini 3.5 Omni aus dem Code heraus aufrufen kann. Konnte ich nicht. Noch nicht. Die Gemini-App zeigte mir, wie Omni Flash aus einem Foto und einem einzeiligen Prompt ein Video generiert, und das war gut — aber das, was ich eigentlich brauchte, ein API-Endpunkt, den ich in eine Pipeline einbinden könnte, war nicht vorhanden. Diese Lücke ist die ganze Geschichte. Dieser Beitrag dokumentiert, wo Omni wirklich steht, Stand Anfang Juni 2026, und was sich für alle ändert (und was nicht), die Videogenerierung in der Produktion betreiben.

Kurze Version für alle, die es eilig haben: Omni ist ein echtes Video-​generierungs​​​-Modell, es ist für Verbraucher live, und der Entwickler-API-Zugang ist noch „in den kommenden Wochen” angekündigt. Baut noch nicht darauf auf. Hier sind die Details.

Was Google als „Gemini Omni” vorgestellt hat

Positionierung: multimodales Weltmodell für Video-, Bild- und Simulationsgenerierung

Googles eigene Darstellung ist, dass Gemini Omni aus jeder Eingabe alles erstellen kann, beginnend mit Video. Das Schlüsselwort dabei ist ​beginnend​. Im Moment macht Omni öffentlich eine Sache: Es nimmt Text, Bilder, Audio und bestehende Videoclips entgegen und produziert am Ende ein Video.

Was es mehr als eine Text-zu-Video-Box macht, ist, dass es diese Eingaben versteht, anstatt sie einfach zusammenzufügen. Anstatt diese Eingaben einfach zusammenzusetzen, verarbeitet Omni sie alle, um eine konsistente Ausgabe zu erzeugen. Google hat auch stark auf Physik gesetzt — der TechCrunch-Bericht über die I/O-Präsentation weist darauf hin, dass die Ausgaben ein Verständnis von Bewegung, Schwerkraft und Flüssigkeitsverhalten widerspiegeln sollen. In den Demos bedeutete das weniger verzerrte Gliedmaßen und schmelzende Hintergründe. Ich werde dem Konsistenzversprechen glauben, wenn ich vierzig Clips damit durchlaufen habe, nicht neun.

Wie sich Omni von Gemini 3.5 Flash / Pro unterscheidet (Ausgabemodalitäten)

Das ist der Teil, den die meisten Berichte verwischen, also sage ich es direkt. Omni und die 3.5-Familie sind nicht dieselbe Art von Modell.

ModellEingabeAusgabeWofür es ist
Gemini Omni / Omni FlashText, Bild, Audio, VideoVideoAufnahmen generieren und bearbeiten
Gemini 3.5 FlashText, Bild, Audio, VideoText, CodeAgentische Aufgaben, Reasoning, UI-Generierung
Gemini 3.5 ProText, Bild, Audio, VideoText, CodeDasselbe, höhere Obergrenze (wird noch ausgerollt)

3.5 Flash ist eingabe-multimodal — es versteht dein Video und schreibt dir eine Antwort. Omni ist ausgabe-multimodal — es versteht deine Eingaben und gibt dir ein Video zurück. Googles Blog sagt es klar: Gemini Omni ist unser neues Modell, das aus jeder Eingabe alles erstellen kann, beginnend mit Video, während 3.5 die Familie ist, die Frontier-Intelligenz mit Aktionsfähigkeit für agentische Arbeit verbindet. Wenn du „Gemini 3.5 kann Video” als eine Fähigkeit behandelt hast, teile sie in zwei. Sie leben in verschiedenen Teilen deines Stacks.

Omni Flash-Positionierung vs. volles Omni

Omni Flash ist die Variante, die tatsächlich ausgeliefert wurde. Es ist die schnellere, günstigere Stufe, und Berichte beziffern die Clips auf etwa 10 Sekunden — beschrieben als Deployment-Entscheidung und nicht als hartes Modelllimit, was darauf hindeutet, dass es sich später ausdehnen wird. Eine qualitativ hochwertigere Omni-Stufe mit längeren Clips liegt darüber, aber die lebt noch größtenteils in Demo-Reels. Wenn also jemand sagt „Omni ist draußen”, meint er Omni Flash, in der Consumer-App.

Was bei I/O 2026 bestätigt wurde

Öffentliche Ankündigungen vs. Entwicklerzugang-Zeitplan

I/O lief vom 19.–20. Mai 2026. Google bestätigte Omni, das 3.5-Lineup und eine Reihe von Agent-Features. Die wichtige Unterscheidung: Consumer-Zugang wurde geliefert, Entwicklerzugang nicht. Gemini Omni Flash wird weltweit für alle Google AI Plus-, Pro- und Ultra-Abonnenten über die Gemini-App und Google Flow ausgerollt, plus kostenloser Zugang auf YouTube Shorts. Dann die Zeile, die jeder Entwickler hervorheben sollte: In den kommenden Wochen werden wir es auch für Entwickler und Enterprise-Kunden über APIs bereitstellen.

„Kommende Wochen.” Kein Datum. Keine Modell-ID. Keine Preistabelle.

Wo Omni demonstriert wurde und was gezeigt wurde

Die Demos waren konversationelle Videobearbeitung — ein Element ändern, die gesamte Szene ändern, die Figur über mehrere Turns hinweg konsistent halten. Ein Beispiel: Einen Geigenspieler-Clip einspeisen, dann Bearbeitungen wie „transportiere den Geiger in eine neue Umgebung” und „mache die Geige unsichtbar” ausgeben, jede aufbauend auf der letzten. Es ist ein auf Bearbeitung ausgerichtetes Angebot, was eine wirklich andere Wette ist als reines Text-zu-Video. Google bestätigte auch, dass jede Omni-Ausgabe SynthID-Wasserzeichen trägt, was wichtig ist, wenn deine nachgelagerte Verwendung Herkunftsanforderungen hat.

Die Lücke zwischen Demo und Entwicklerverfügbarkeit

Hier hielt ich inne. Ein Consumer-Rollout und eine API sind zwei verschiedene Produkte mit zwei verschiedenen Zuverlässigkeitsgeschichten. Das ist kein Pessimismus. Es ist nur der Unterschied zwischen „Ich habe es in einer App funktionieren sehen” und „Ich kann mich darauf um 3 Uhr morgens verlassen, wenn ein Batch-Job startet.”

Warum das für multimodale Entwickler wichtig ist

Videogenerierung ist ein anderes Problem als multimodales Verstehen

Wenn dein Produkt bereits Gemini 3.5 aufruft, um hochgeladene Medien zu verstehen, ersetzt Omni das nicht. Es ist eine zusätzliche Fähigkeit — Generierung —, die du ergänzend einsetzen würdest, kein direkter Upgrade. Sie als eine Position in deinem Architekturdiagramm zu behandeln ist der Weg, wie du überrascht wirst.

Wo Omni neben bestehenden Videomodellen (Veo usw.) stehen würde

Das ist die praktische Frage. Google liefert bereits Veo 3.1 über dokumentierte Gemini API- und Vertex AI-Pfade, also ist Veo heute das Google-Videomodell, das du tatsächlich integrieren kannst. Omni ist auf API-Ebene noch kein Veo-Ersatz — es gibt kein Migrationsdokument, das besagt, dass jede Veo-Route zu Omni wechselt, und die Veo-Seiten sind noch aktiv. Der Unterschied in der Absicht ist jedoch real: Veo ist auf Text-zu-Video ausgerichtet, während Omnis ganzes Ding Multi-Input-Reasoning und konversationelle Bearbeitung ist. Für Entwickler bedeutet das, dass Omni positioniert ist, eine Kette zu verkürzen — Transkription, Bildverständnis, Generierung — auf einen einzigen Aufruf. Ob es sich lohnt, darum neu zu bauen, hängt völlig davon ab, ob es jemals eine API liefert.

Was sich ändert, wenn Omni den Entwicklerzugang erreicht

Wenn — wenn — die API kommt, liegt der Reiz nicht in rohen Dollar-Einsparungen. Es geht darum, Schnittstellen loszuwerden. Ein Modell, das gemischte Medien nimmt und bearbeitetes Video zurückgibt, bedeutet weniger SDKs zu pflegen, weniger Fehlertaxonomien zu handhaben, weniger SLAs zu verfolgen. Das ist die Art von Reibungsreduzierung, um die ich mich wirklich kümmere. Aber „wenn es ausgeliefert wird” leistet in diesem Satz viel Arbeit.

Was noch nicht bekannt ist

Ich kennzeichne diese, weil das Schreiben, als wären sie geklärt, dazu führt, dass Teams verbrannt werden.

  • API-Verfügbarkeit und Zeitplanmuss verifiziert werden. „Kommende Wochen” ist das einzige offizielle Signal. Kein Endpunkt, keine Modell-ID in Googles Entwicklerdokumentation Stand Anfang Juni 2026.
  • Preisgestaltung für Video-Workloads — unbekannt. Consumer-Zugang ist in den Google AI-Abonnement-Stufen (Plus, Pro, Ultra) gebündelt, aber die API-Preisgestaltung pro Aufruf ist nicht veröffentlicht. Video-Frames erhöhen die Token-Anzahl schnell, also geh nicht von Text-Modell-Wirtschaftlichkeit aus.
  • Ausgabespezifikationen — Omni Flash-Clips scheinen auf etwa 10 Sekunden begrenzt; volle Auflösung, maximale Länge und genaue Steuerungseingaben für die API-Stufe sind nicht dokumentiert.
  • Kommerzielle Nutzungsrechte — für die Entwicklernutzung nicht ausgeführt. SynthID-Wasserzeichen sind bestätigt; Lizenzbedingungen für generierte Ausgaben über die API sind es nicht.

Wenn ein Anbieter oder Blog dir sagt, die Omni-API sei „für alle live”, liegen sie vor den Beweisen. Ich habe nachgeprüft.

Wie man heute rund um Omni plant

Keine Produktions-Workloads auf Demos migrieren

Offensichtlich, aber es ist es wert, es zu sagen, weil die Demos wirklich beeindruckend sind und das genau der Moment ist, in dem Teams den Fehler machen. Eine Demo ist der beste Fall unter kontrollierten Bedingungen. Produktion ist der schlechteste Fall bei 2-fachem Volumen. Bis es einen Endpunkt mit dokumentierter Latenz und Grenzen gibt, bleibt Omni in deiner „beobachten”-Spalte, nicht in deiner „hängt-davon-ab”-Spalte.

Fallback-Pfade über mehrere Videogenerierungsmodelle hinweg testen

Ich führe dieselbe Generierungsaufgabe gegen mehr als ein Modell durch, genau damit mich ein Launch wie dieser nicht stranden lässt. Wenn Omnis API nächsten Monat kommt, gut — ich möchte in der Lage sein, es einzusetzen und mit dem zu vergleichen, was ich bereits nutze, anstatt meine Pipeline neu aufzubauen, nur um herauszufinden, dass es für mein spezifisches Szenario schlechter ist. Die Lektion von jedem Modell-Launch: „wirklich gut” in jemand anderem Demo bedeutet nichts, bis es in deinem Workflow bei deiner Häufigkeit gut ist.

Modellaggregation als Absicherung gegen anbieterspezifische Rollouts

Das ist der Teil, der relevant ist für die Art, wie ich arbeite. Wenn ein Modell zuerst an Verbraucher und Entwickler „in den kommenden Wochen” ausgeliefert wird, sind die Entwickler, die nicht hektisch werden, diejenigen, die sich nie an den Veröffentlichungskalender eines einzelnen Anbieters gebunden haben. Die Videogenerierung über eine einheitliche Multi-Modell-Zugriffsebene wie WaveSpeedAI laufen zu lassen bedeutet, dass ein neues Modell etwas ist, das du testest und übernimmst, wenn es bereit ist, keine Migration, zu der du gezwungen bist. Ich sage nicht, dass das für jeden richtig ist — wenn du immer nur ein Modell verwendest, ist die Abstraktion Overhead. Aber bei meiner Wechselhäufigkeit schlägt eine Zugriffsebene über viele Modelle die Pflege einer Integration pro Anbieter. Der Wert ist nicht „mehr Modelle.” Es ist, nicht jedes Mal neu aufbauen zu müssen, wenn sich die Landschaft verschiebt. Und diesen Monat hat sie sich verschoben.

FAQ

Ist Gemini Omni heute über eine API verfügbar? Nein. Stand Anfang Juni 2026 ist Omni Flash in der Gemini-App, Google Flow und YouTube Shorts für AI Plus/Pro/Ultra-Abonnenten live. Google sagt, der Entwickler- und Enterprise-API-Zugang sei „in den kommenden Wochen”, aber es gibt noch keine veröffentlichte Modell-ID, keinen Endpunkt oder Preisgestaltung.

Was ist der Unterschied zwischen Gemini Omni und Gemini 3.5 Pro? Die Ausgabemodalität. Omni generiert Video (ausgabe-multimodal). Gemini 3.5 Pro versteht Text, Bild, Audio und Video, gibt aber Text und Code aus (eingabe-multimodal). Verschiedene Aufgaben, verschiedene Teile deines Stacks.

Generiert Gemini Omni Video? Ja — das ist seine Kernfunktion. Es nimmt Text, Bilder, Audio und Videoclips als Eingabe und produziert Video, mit konversationeller Bearbeitung über mehrere Turns hinweg. Alle Ausgaben tragen SynthID-Wasserzeichen.

Wann können Entwickler mit dem Zugang zu Omni rechnen? Unbestätigt. Googles einzige öffentliche Formulierung ist „in den kommenden Wochen”. Behandle jedes spezifische Datum, das du anderswo siehst, als Spekulation, bis Google die API-Dokumentation veröffentlicht.

Wie vergleicht sich Omni mit anderen Videogenerierungsmodellen wie Veo? Veo 3.1 ist das Modell, das du heute tatsächlich über API aufrufen kannst, via Gemini API und Vertex AI. Omnis Unterscheidung ist Multi-Input-Reasoning und ein auf Bearbeitung ausgerichtetes Design, anstatt reines Text-zu-Video. Aber bis Omnis API ausgeliefert wird, bleibt Veo der praktische Google-Ausgangspunkt für die Videogenerierung in der Produktion.

Fazit

Wo das für mich landet: Omni ist real, der Bearbeitungsansatz ist eine andere und interessante Wette, und Gemini 3.5 Omni ist es wert, aufmerksam verfolgt zu werden. Es ist diese Woche nicht wert, darauf aufzubauen. Consumer-live, Entwickler-ausstehend, Specs-unbekannt — das ist ein Beobachtungselement, keine Abhängigkeit.

Also ist der Schritt langweilig und richtig: Halte deine Videogenerierung flexibel, teste Omni in der App, um dir deine eigene Meinung zu bilden, und ordne deine Produktionspipeline nicht um, bis es einen Endpunkt gibt, auf den du tatsächlich zeigen kannst. Wenn die API auftaucht, werde ich sie gegen das testen, was ich gerade verwende, und berichten, was standgehalten hat.

Muss noch verifiziert werden. Mehr, wenn die Docs erscheinen.

Vorherige Beiträge: