Gemini 3.5 Flash veröffentlicht — Ein Flash-Tier-Modell führt jetzt die Pro-Tier auf Agent-Benchmarks an

Gemini 3.5 Flash wurde auf der I/O 2026 als GA veröffentlicht – mit standardmäßig aktiviertem Thinking-Modus, 1,50 $/9 $ pro 1 Million Token und einem Benchmark-Profil, das Claude Opus 4.7 und GPT-5.5 bei MCP Atlas und den meisten Agent-Suites übertrifft. Hier erfahren Sie, wo Flash führt, wo es verliert und wie Sie es einsetzen.

By WaveSpeedAI 8 min read

Google hat Gemini 3.5 Flash am 19. Mai 2026 zur allgemeinen Verfügbarkeit freigegeben — am selben Tag, an dem es bei I/O angekündigt wurde — über die Gemini API, AI Studio, Antigravity, Vertex AI, die Gemini-App und AI Mode in der Suche. Die Modell-ID lautet gemini-3.5-flash (kein Preview-Suffix), der Snapshot vom Mai 2026 ist 3.5-flash-05-2026, und die Preise liegen bei $1,50 Input / $9,00 Output pro 1M Token sowie $0,15/1M für gecachten Input.

Die Schlagzeile liegt auf der Benchmark-Seite: Ein Flash-Tier-Modell schlägt jetzt Pro-Tier-Frontier-Modelle in den meisten Agent-Suites. Claude Opus 4.7 und GPT-5.5 — beide Pro-Klasse, beide deutlich teurer — liegen hinter Flash bei MCP Atlas, Toolathlon und Finance Agent v2. Beim Coding ist das Bild gemischter, und es gibt eine klare Kategorie, in der Flash noch verliert. Nachfolgend das vollständige Bild, eine ehrliche Einschätzung der Trade-offs und Empfehlungen zum Einsatz.

Was ausgeliefert wurde — in einer Tabelle

DetailWert
Modell-IDgemini-3.5-flash
Snapshot3.5-flash-05-2026
Input-Preis$1,50/1M Token
Output-Preis$9,00/1M Token
Gecachter Input$0,15/1M Token
Input-ModalitätenText + Bild + Audio + Video
Output-ModalitätenText
Kontextfenster1.048.576 Input / 65.536 Output
ThinkingDynamisches Thinking standardmäßig aktiviert
Tool-NutzungFunction Calling, strukturierter Output, Search-as-Tool, Code-Ausführung
VerfügbarkeitGemini API, AI Studio, Antigravity, Vertex AI, Gemini-App, AI Mode in der Suche
Geschwindigkeitsangabe~4× Output-Token/Sek. gegenüber Frontier-Konkurrenten

Das Detail „Thinking standardmäßig aktiviert” ist wichtiger, als das Spec-Sheet vermuten lässt. Dies ist kein thinking_budget-Parameter, den man pro Request setzt — Flash hat dynamisches Reasoning eingebaut. Das Modell entscheidet anhand des Prompts, wie viel es denken soll. Für Produktionscode, der Latenzbudgets einpreist, ergibt sich damit eine andere Deployment-Form als Sonnet 4.6s Extended-Thinking-Toggle oder GPT-5.5s reasoning-Parameter.

Agent-Benchmarks: Flash vs. Pro-Tier

Die herstellerübergreifenden Daten machen Flashs Positionierung greifbar. Aus den Launch-Vergleichen von Digital Applied’s Agentic-Coding-Auswertung und LLM Stats’ Launch-Analyse:

BenchmarkGemini 3.5 FlashClaude Opus 4.7GPT-5.5Gewinner
MCP Atlas83,6 %79,1 %75,3 %Flash (+4,5 / +8,3)
Toolathlon56,5 %Flash
Finance Agent v257,9 %Flash
CharXiv Reasoning84,2 %Flash
MMMU-Pro83,6 %Flash
SWE-Bench Pro64,3 %Opus 4.7
Terminal-Bench 2.176,2 %78,2 %GPT-5.5 (+2,0)
OSWorld-Verified78,7 %GPT-5.5
Blueprint-Bench 236,2 %GPT-5.5
GDPval-AA1656 Elo1769 EloGPT-5.5 (+113)
ARC-AGI-272,1 %84,6 %GPT-5.5 (+12,5)

Drei Lesarten zu diesen Daten:

Bei der Agent-Orchestrierung ist Flash jetzt das Modell, das man zuerst greifen sollte. MCP Atlas misst mehrstufige, tool-gesteuerte Workflows — genau den Anwendungsfall, den die meisten Enterprise-Agent-Stacks tatsächlich deployen. Opus um 4,5 Punkte auf diesem Benchmark zu schlagen zu Flash-Preisen ist eine bedeutende Verschiebung beim Preis-Leistungs-Verhältnis. Toolathlon und Finance Agent v2 bestätigen das Muster: Überall, wo die Arbeit agentisch ist (planen, Tools aufrufen, Ergebnisse integrieren, iterieren), führt Flash.

Beim terminal-basierten Coding gewinnt GPT-5.5 noch knapp. Ein 2-Punkte-Abstand bei Terminal-Bench 2.1 ist nicht entscheidend — aber kombiniert mit GPT-5.5s Vorsprung bei GDPval-AA (113 Elo) und OSWorld-Verified lautet die Einschätzung: Wenn der Workflow „Gib dem Modell ein Terminal und eine Aufgabe” lautet, ist GPT-5.5 noch die richtige Wahl. Flash schließt den Abstand; er schließt den Rückstand nicht vollständig.

Bei hartem abstraktem Reasoning hat Flash eine echte Schwäche. ARC-AGI-2 ist hier das klarste Signal — Flash liegt 12,5 Punkte hinter GPT-5.5. Das ist konsistent mit dem, was wir gestern über Flashs Regression bei Humanity’s Last Exam und Long-Context-Retrieval gegenüber dem vorherigen Gemini 3.1 Pro festgestellt haben. Die Flash-Architektur hat offensichtlich Reasoning-Tiefe gegen Geschwindigkeit und Kosten eingetauscht. Das im Juni erscheinende Gemini 3.5 Pro ist vermutlich die Antwort auf diesen Trade.

Preise im Kontext

ModellInput ($/1M)Output ($/1M)Output-VerhältnisHinweise
Gemini 3.5 Flash$1,50$9,006,0×Gecachter Input $0,15
Claude Sonnet 4.6$3,00$15,005,0×1M Kontext pauschal
Claude Opus 4.7$5,00$25,005,0×Pro-Tier-Reasoning
GPT-5.5$1,25$10,008,0×Günstigster Input
Gemini 3.1 Pro (Vorgänger)$2,50$15,006,0×40 % teurer als Flash

Flash liegt bei beiden Achsen unter Sonnet 4.6 und führt gleichzeitig Opus 4.7 bei Agent-Benchmarks. Das ist die Preisgeschichte, die Entwickler verinnerlichen müssen: Das Standard-Agent-Orchestrierungsmodell ist gerade 50 % günstiger beim Input und 40 % günstiger beim Output geworden, mit einem deutlich besseren Benchmark-Profil als der bisherige Standard im gleichen Tier.

Die $0,15/1M gecachter Input-Preis ist das, was die Kalkulation für jeden RAG- oder speicherlastigen Workflow stark kippen lässt. Wenn man pro Request 500K Token gecachten Kontext einspeist, entspricht Flashs Cache-Tier-Preis ungefähr 10 % von Sonnet 4.6s Standard-Input-Rate. Das ist kein Prozentpunkt Marge; das ist eine andere Kostenklasse.

Wo Flash heute in der Produktion passt

Konkrete Deployment-Einschätzungen auf Basis der Benchmark-Daten:

Flash verwenden für:

  • MCP / tool-orchestrierte Agents. Hier führt Flash tatsächlich, und der Preisvorteil ist am größten.
  • Hochvolumige API-Workflows, bei denen Stückkosten wichtiger sind als maximale Intelligenz: Datentransformation, Klassifizierung, strukturierte Extraktion, Batch-Verarbeitung.
  • Multi-modale Pipelines, die Bild-/Audio-/Video-Input verarbeiten und Text ausgeben — Flash unterstützt alle vier Input-Modalitäten nativ.
  • Cache-lastige Workflows (Long-Context-RAG, Konversationsgedächtnis, Dokumentensuche) — die $0,15/1M gecachter Input sind die günstigsten im Frontier-Tier.

Flash (noch) nicht verwenden für:

  • Hartes abstraktes Reasoning — Probleme im ARC-AGI-2-Stil. GPT-5.5 ist die richtige Wahl.
  • Long-Context-Retrieval ab 128K+ — Flash hat hier gegenüber dem vorherigen Gemini 3.1 Pro Rückschritte gemacht. Auf 3.5 Pro im Juni warten.
  • Reine Terminal-Coding-Agents — GPT-5.5 hat noch einen 2-Punkte-Vorsprung bei Terminal-Bench, der sich über mehrstufige Coding-Workflows summiert.
  • Workloads, bei denen das Thinking-Budget pro Request kontrolliert werden muss — Flash hat Thinking eingebaut, nicht als Parameter exponiert.

Was sich heute geändert hat, das gestern noch nicht galt

Drei Dinge haben sich mit Flashs Release tatsächlich verschoben:

  1. Das Standard-Agent-Modell ist nicht mehr Pro-Tier. „Nimm das beste Modell, das du dir leisten kannst” hört auf, guter Rat für Agent-Workflows zu sein. Für MCP-orchestrierte Aufgaben schlägt Flash Pro-Modelle von Wettbewerbern und kostet weniger.
  2. Die Gemini-Textfamilie hat bei agentischer Fähigkeit aufgeholt. Vor dem Launch lautete die dominante Einschätzung: „Gemini liegt bei Coding/Agents hinten.” Nach dem Launch führt Flash die meisten Agent-Suites an und ist beim Coding wettbewerbsfähig. Das Narrativ muss aktualisiert werden.
  3. Die Reasoning-Lücke ist größer geworden, nicht kleiner. Flashs Regression bei ARC-AGI-2 und Humanity’s Last Exam ist real. Das Pro-Release im Juni ist jetzt das entscheidende Ereignis dafür, ob Gemini genau diese Lücke schließt.

Deployment-Wege

Die sauberste Deployment-Form hängt heute davon ab, auf welcher Oberfläche man arbeitet:

  • Produktions-API direkt über Google: gemini-3.5-flash über Vertex AI oder AI Studio. Beide exponieren dasselbe Modell.
  • In Antigravity (Googles IDE-ähnliche Coding-Oberfläche): Der Standard-Modell-Wechsel von gemini-3.1-pro auf gemini-3.5-flash ist für die meisten Workflows die richtige Entscheidung.
  • In einem Multi-Vendor-Router: gemini-3.5-flash zur Agent-Orchestrierungs-Policy hinzufügen. Für MCP-/tool-lastige Pfade zuerst zu Flash routen; für Terminal-Coding und ARC-artiges Reasoning auf GPT-5.5 zurückfallen.
  • Auf WaveSpeedAI: Der WaveSpeedAI LLM-Endpoint bietet OpenAI-kompatiblen Zugang zu aktuellen Frontier-Textmodellen hinter einem API-Key. Sobald Gemini 3.5 Flash integriert ist, kann man es unter derselben Oberfläche A/B-Tests gegen den Rest des Modell-Lineups unterziehen.

Worauf man im Juni achten sollte

Zwei Dinge, die sich in den nächsten vier Wochen klären:

  1. Gemini 3.5 Pro startet. Dies ist die Antwort auf die Frage, ob Flashs Regression bei Reasoning und Long-Context behoben wird. Wenn Pro über 3.1 Pro bei Humanity’s Last Exam landet und Flash bei Terminal-Bench matchet, ist die gesamte Gemini-3.5-Familie der neue Standard. Wenn Pro nur die Regression zu höheren Kosten behebt, bleibt das Lineup zweigeteilt.
  2. Unabhängige Agent-Benchmark-Replikationen. Googles MCP Atlas / Toolathlon / Finance Agent-Zahlen sind erst-Partei-Daten. Die interessante Frage ist, ob Drittanbieter-Agent-Benchmark-Suites (LangChain Bench, MetaGPT Eval usw.) den Vorsprung reproduzieren. In den nächsten zwei bis drei Wochen auf Replikationsstudien achten.

Bis dahin gilt: Flash ist im Einsatz, die Agent-Orchestrierungskosten sind gerade gesunken, und die Frage, die diese Woche auf den meisten Entwickler-Agenden steht, lautet: Jetzt den Agent-Pfad von Opus 4.7 auf gemini-3.5-flash migrieren — oder auf 3.5 Pro warten?

Quellen: LLM Stats zu Gemini 3.5 Flash, Digital Applied Agentic-Coding-Vergleich, Seeking Alpha zur agentischen Benchmark-Führungsposition, DataCamp Gemini 3.5 Flash Review, Vertex AI Release Notes.