Gemini 3.5 Flash veröffentlicht — Ein Flash-Tier-Modell führt jetzt die Pro-Tier auf Agent-Benchmarks an
Gemini 3.5 Flash wurde auf der I/O 2026 als GA veröffentlicht – mit standardmäßig aktiviertem Thinking-Modus, 1,50 $/9 $ pro 1 Million Token und einem Benchmark-Profil, das Claude Opus 4.7 und GPT-5.5 bei MCP Atlas und den meisten Agent-Suites übertrifft. Hier erfahren Sie, wo Flash führt, wo es verliert und wie Sie es einsetzen.
Google hat Gemini 3.5 Flash am 19. Mai 2026 zur allgemeinen Verfügbarkeit freigegeben — am selben Tag, an dem es bei I/O angekündigt wurde — über die Gemini API, AI Studio, Antigravity, Vertex AI, die Gemini-App und AI Mode in der Suche. Die Modell-ID lautet gemini-3.5-flash (kein Preview-Suffix), der Snapshot vom Mai 2026 ist 3.5-flash-05-2026, und die Preise liegen bei $1,50 Input / $9,00 Output pro 1M Token sowie $0,15/1M für gecachten Input.
Die Schlagzeile liegt auf der Benchmark-Seite: Ein Flash-Tier-Modell schlägt jetzt Pro-Tier-Frontier-Modelle in den meisten Agent-Suites. Claude Opus 4.7 und GPT-5.5 — beide Pro-Klasse, beide deutlich teurer — liegen hinter Flash bei MCP Atlas, Toolathlon und Finance Agent v2. Beim Coding ist das Bild gemischter, und es gibt eine klare Kategorie, in der Flash noch verliert. Nachfolgend das vollständige Bild, eine ehrliche Einschätzung der Trade-offs und Empfehlungen zum Einsatz.
Was ausgeliefert wurde — in einer Tabelle
| Detail | Wert |
|---|---|
| Modell-ID | gemini-3.5-flash |
| Snapshot | 3.5-flash-05-2026 |
| Input-Preis | $1,50/1M Token |
| Output-Preis | $9,00/1M Token |
| Gecachter Input | $0,15/1M Token |
| Input-Modalitäten | Text + Bild + Audio + Video |
| Output-Modalitäten | Text |
| Kontextfenster | 1.048.576 Input / 65.536 Output |
| Thinking | Dynamisches Thinking standardmäßig aktiviert |
| Tool-Nutzung | Function Calling, strukturierter Output, Search-as-Tool, Code-Ausführung |
| Verfügbarkeit | Gemini API, AI Studio, Antigravity, Vertex AI, Gemini-App, AI Mode in der Suche |
| Geschwindigkeitsangabe | ~4× Output-Token/Sek. gegenüber Frontier-Konkurrenten |
Das Detail „Thinking standardmäßig aktiviert” ist wichtiger, als das Spec-Sheet vermuten lässt. Dies ist kein thinking_budget-Parameter, den man pro Request setzt — Flash hat dynamisches Reasoning eingebaut. Das Modell entscheidet anhand des Prompts, wie viel es denken soll. Für Produktionscode, der Latenzbudgets einpreist, ergibt sich damit eine andere Deployment-Form als Sonnet 4.6s Extended-Thinking-Toggle oder GPT-5.5s reasoning-Parameter.
Agent-Benchmarks: Flash vs. Pro-Tier
Die herstellerübergreifenden Daten machen Flashs Positionierung greifbar. Aus den Launch-Vergleichen von Digital Applied’s Agentic-Coding-Auswertung und LLM Stats’ Launch-Analyse:
| Benchmark | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | Gewinner |
|---|---|---|---|---|
| MCP Atlas | 83,6 % | 79,1 % | 75,3 % | Flash (+4,5 / +8,3) |
| Toolathlon | 56,5 % | — | — | Flash |
| Finance Agent v2 | 57,9 % | — | — | Flash |
| CharXiv Reasoning | 84,2 % | — | — | Flash |
| MMMU-Pro | 83,6 % | — | — | Flash |
| SWE-Bench Pro | — | 64,3 % | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76,2 % | — | 78,2 % | GPT-5.5 (+2,0) |
| OSWorld-Verified | — | — | 78,7 % | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36,2 % | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72,1 % | — | 84,6 % | GPT-5.5 (+12,5) |
Drei Lesarten zu diesen Daten:
Bei der Agent-Orchestrierung ist Flash jetzt das Modell, das man zuerst greifen sollte. MCP Atlas misst mehrstufige, tool-gesteuerte Workflows — genau den Anwendungsfall, den die meisten Enterprise-Agent-Stacks tatsächlich deployen. Opus um 4,5 Punkte auf diesem Benchmark zu schlagen zu Flash-Preisen ist eine bedeutende Verschiebung beim Preis-Leistungs-Verhältnis. Toolathlon und Finance Agent v2 bestätigen das Muster: Überall, wo die Arbeit agentisch ist (planen, Tools aufrufen, Ergebnisse integrieren, iterieren), führt Flash.
Beim terminal-basierten Coding gewinnt GPT-5.5 noch knapp. Ein 2-Punkte-Abstand bei Terminal-Bench 2.1 ist nicht entscheidend — aber kombiniert mit GPT-5.5s Vorsprung bei GDPval-AA (113 Elo) und OSWorld-Verified lautet die Einschätzung: Wenn der Workflow „Gib dem Modell ein Terminal und eine Aufgabe” lautet, ist GPT-5.5 noch die richtige Wahl. Flash schließt den Abstand; er schließt den Rückstand nicht vollständig.
Bei hartem abstraktem Reasoning hat Flash eine echte Schwäche. ARC-AGI-2 ist hier das klarste Signal — Flash liegt 12,5 Punkte hinter GPT-5.5. Das ist konsistent mit dem, was wir gestern über Flashs Regression bei Humanity’s Last Exam und Long-Context-Retrieval gegenüber dem vorherigen Gemini 3.1 Pro festgestellt haben. Die Flash-Architektur hat offensichtlich Reasoning-Tiefe gegen Geschwindigkeit und Kosten eingetauscht. Das im Juni erscheinende Gemini 3.5 Pro ist vermutlich die Antwort auf diesen Trade.
Preise im Kontext
| Modell | Input ($/1M) | Output ($/1M) | Output-Verhältnis | Hinweise |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1,50 | $9,00 | 6,0× | Gecachter Input $0,15 |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 5,0× | 1M Kontext pauschal |
| Claude Opus 4.7 | $5,00 | $25,00 | 5,0× | Pro-Tier-Reasoning |
| GPT-5.5 | $1,25 | $10,00 | 8,0× | Günstigster Input |
| Gemini 3.1 Pro (Vorgänger) | $2,50 | $15,00 | 6,0× | 40 % teurer als Flash |
Flash liegt bei beiden Achsen unter Sonnet 4.6 und führt gleichzeitig Opus 4.7 bei Agent-Benchmarks. Das ist die Preisgeschichte, die Entwickler verinnerlichen müssen: Das Standard-Agent-Orchestrierungsmodell ist gerade 50 % günstiger beim Input und 40 % günstiger beim Output geworden, mit einem deutlich besseren Benchmark-Profil als der bisherige Standard im gleichen Tier.
Die $0,15/1M gecachter Input-Preis ist das, was die Kalkulation für jeden RAG- oder speicherlastigen Workflow stark kippen lässt. Wenn man pro Request 500K Token gecachten Kontext einspeist, entspricht Flashs Cache-Tier-Preis ungefähr 10 % von Sonnet 4.6s Standard-Input-Rate. Das ist kein Prozentpunkt Marge; das ist eine andere Kostenklasse.
Wo Flash heute in der Produktion passt
Konkrete Deployment-Einschätzungen auf Basis der Benchmark-Daten:
Flash verwenden für:
- MCP / tool-orchestrierte Agents. Hier führt Flash tatsächlich, und der Preisvorteil ist am größten.
- Hochvolumige API-Workflows, bei denen Stückkosten wichtiger sind als maximale Intelligenz: Datentransformation, Klassifizierung, strukturierte Extraktion, Batch-Verarbeitung.
- Multi-modale Pipelines, die Bild-/Audio-/Video-Input verarbeiten und Text ausgeben — Flash unterstützt alle vier Input-Modalitäten nativ.
- Cache-lastige Workflows (Long-Context-RAG, Konversationsgedächtnis, Dokumentensuche) — die $0,15/1M gecachter Input sind die günstigsten im Frontier-Tier.
Flash (noch) nicht verwenden für:
- Hartes abstraktes Reasoning — Probleme im ARC-AGI-2-Stil. GPT-5.5 ist die richtige Wahl.
- Long-Context-Retrieval ab 128K+ — Flash hat hier gegenüber dem vorherigen Gemini 3.1 Pro Rückschritte gemacht. Auf 3.5 Pro im Juni warten.
- Reine Terminal-Coding-Agents — GPT-5.5 hat noch einen 2-Punkte-Vorsprung bei Terminal-Bench, der sich über mehrstufige Coding-Workflows summiert.
- Workloads, bei denen das Thinking-Budget pro Request kontrolliert werden muss — Flash hat Thinking eingebaut, nicht als Parameter exponiert.
Was sich heute geändert hat, das gestern noch nicht galt
Drei Dinge haben sich mit Flashs Release tatsächlich verschoben:
- Das Standard-Agent-Modell ist nicht mehr Pro-Tier. „Nimm das beste Modell, das du dir leisten kannst” hört auf, guter Rat für Agent-Workflows zu sein. Für MCP-orchestrierte Aufgaben schlägt Flash Pro-Modelle von Wettbewerbern und kostet weniger.
- Die Gemini-Textfamilie hat bei agentischer Fähigkeit aufgeholt. Vor dem Launch lautete die dominante Einschätzung: „Gemini liegt bei Coding/Agents hinten.” Nach dem Launch führt Flash die meisten Agent-Suites an und ist beim Coding wettbewerbsfähig. Das Narrativ muss aktualisiert werden.
- Die Reasoning-Lücke ist größer geworden, nicht kleiner. Flashs Regression bei ARC-AGI-2 und Humanity’s Last Exam ist real. Das Pro-Release im Juni ist jetzt das entscheidende Ereignis dafür, ob Gemini genau diese Lücke schließt.
Deployment-Wege
Die sauberste Deployment-Form hängt heute davon ab, auf welcher Oberfläche man arbeitet:
- Produktions-API direkt über Google:
gemini-3.5-flashüber Vertex AI oder AI Studio. Beide exponieren dasselbe Modell. - In Antigravity (Googles IDE-ähnliche Coding-Oberfläche): Der Standard-Modell-Wechsel von
gemini-3.1-proaufgemini-3.5-flashist für die meisten Workflows die richtige Entscheidung. - In einem Multi-Vendor-Router:
gemini-3.5-flashzur Agent-Orchestrierungs-Policy hinzufügen. Für MCP-/tool-lastige Pfade zuerst zu Flash routen; für Terminal-Coding und ARC-artiges Reasoning auf GPT-5.5 zurückfallen. - Auf WaveSpeedAI: Der WaveSpeedAI LLM-Endpoint bietet OpenAI-kompatiblen Zugang zu aktuellen Frontier-Textmodellen hinter einem API-Key. Sobald Gemini 3.5 Flash integriert ist, kann man es unter derselben Oberfläche A/B-Tests gegen den Rest des Modell-Lineups unterziehen.
Worauf man im Juni achten sollte
Zwei Dinge, die sich in den nächsten vier Wochen klären:
- Gemini 3.5 Pro startet. Dies ist die Antwort auf die Frage, ob Flashs Regression bei Reasoning und Long-Context behoben wird. Wenn Pro über 3.1 Pro bei Humanity’s Last Exam landet und Flash bei Terminal-Bench matchet, ist die gesamte Gemini-3.5-Familie der neue Standard. Wenn Pro nur die Regression zu höheren Kosten behebt, bleibt das Lineup zweigeteilt.
- Unabhängige Agent-Benchmark-Replikationen. Googles MCP Atlas / Toolathlon / Finance Agent-Zahlen sind erst-Partei-Daten. Die interessante Frage ist, ob Drittanbieter-Agent-Benchmark-Suites (LangChain Bench, MetaGPT Eval usw.) den Vorsprung reproduzieren. In den nächsten zwei bis drei Wochen auf Replikationsstudien achten.
Bis dahin gilt: Flash ist im Einsatz, die Agent-Orchestrierungskosten sind gerade gesunken, und die Frage, die diese Woche auf den meisten Entwickler-Agenden steht, lautet: Jetzt den Agent-Pfad von Opus 4.7 auf gemini-3.5-flash migrieren — oder auf 3.5 Pro warten?
Quellen: LLM Stats zu Gemini 3.5 Flash, Digital Applied Agentic-Coding-Vergleich, Seeking Alpha zur agentischen Benchmark-Führungsposition, DataCamp Gemini 3.5 Flash Review, Vertex AI Release Notes.
