Gemini 3.5 Flash vs 3.1 Pro: Geschwindigkeit, Agenten und Kosten

Hier ist Dora. Ich beschäftige mich mit den Zahlen zu Gemini 3.5 Flash vs. 3.1 Pro seit dem Google I/O 2026 Launch am 19. Mai, und die Kurzfassung lautet: Die Hierarchieumkehrung ist real, sie ist kein Marketing, und sie beeinflusst Routing-Entscheidungen, die möglicherweise bereits in einer Config-Datei festgelegt sind.

Flash-Modelle sollen Qualität gegen Geschwindigkeit eintauschen. 3.5 Flash bricht diesen Vertrag – zumindest bei den Workloads, die die meisten Produktions-Agenten tatsächlich ausführen.

Warum dieser Vergleich ungewöhnlich ist: Flash schlägt das vorherige Pro

Was Google bei I/O 2026 gezeigt hat

Gemini 3.5 Flash wurde am 19. Mai als GA veröffentlicht, mit stabiler Modell-ID Gemini-3.5 Flash ohne Preview-Suffix. Der Hauptanspruch von Google: Es übertrifft Gemini 3.1 Pro bei Coding- und Agenten-Benchmarks, läuft dabei etwa 4x schneller als vergleichbare Frontier-Modelle, oft zu weniger als der Hälfte der Kosten.

Die Tier-Umkehrung in einem Absatz erklärt

Flash schlägt 3.1 Pro bei den Benchmarks, die echter Arbeit ähneln: Terminal-Bench 2.1 (76,2 % vs. 70,3 %), MCP Atlas (83,6 % vs. 78,2 %), Finance Agent v2 (57,9 % vs. 43,0 %) und GDPval-AA Elo (1656 vs. 1314). Es liegt hinter Pro bei Humanity’s Last Exam (40,2 % vs. 44,4 %) und ARC-AGI-2 (72,1 % vs. 77,1 %) – Benchmarks, die von reinem Parameterwissen und abstraktem Denken dominiert werden. Bei der Bewertung von Gemini 3.5 Flash vs. 3.1 Pro ist die Aufteilung klar: Agenten-Arbeit geht an Flash, hartes Reasoning bleibt bei Pro.

Head-to-Head: Benchmarks und was sie tatsächlich messen

Der Gemini 3.5 Flash Benchmark-Fall gegen 3.1 Pro ist spezifisch, nicht universell. Hier ist, was die Zahlen tatsächlich zeigen.

Terminal-Bench 2.1 misst die Fähigkeit, mehrstufige Terminal-Aufgaben auszuführen – Dateisystemzustand lesen, Skripte schreiben und ausführen, Fehlerausgaben verarbeiten, erneut versuchen. Flash erzielt 76,2 % gegenüber 3.1 Pros 70,3 %. Dieser Abstand von fast 6 Punkten ist bedeutsam für automatisierte Pipelines, bei denen das Modell das Terminal bedient, anstatt einen menschlichen Operator zu beraten.

MCP Atlas ist der Benchmark, auf den ich immer wieder zurückkomme. Er testet die skalierte Tool-Use-Zuverlässigkeit – wie gut ein Modell korrekte Tool-Aufrufe über erweiterte Multi-Call-Sequenzen hinweg aufrechterhält (8–15 Aufrufe pro Aufgabe, 4K–12K Token Kontext pro Aufruf). Flashs 83,6 % schlägt 3.1 Pros 78,2 % und führt auch vor allen Mitbewerbern, einschließlich Claude Opus 4.7 (79,1 %) und GPT-5.5 (75,3 %). Für Entwickler, die autonome Agenten bauen, die Websuche, Vektordatenbanken und Code-Execution-Sandboxes integrieren, ist dies der Benchmark, dem das größte Gewicht beizumessen ist.

GDPval-AA Elo: Flash bei 1656 gegenüber Pro bei 1314. Ein Swing von 342 Punkten bei einer realen agentischen Auswertung. Kein Rundungsfehler.

Wo 3.1 Pro noch gewinnt (ARC-AGI-2, Langkontext-Retrieval)

ARC-AGI-2-Scores bevorzugen Pro um 5 Punkte (77,1 % vs. 72,1 %). Für Aufgaben, die neuartige Mustererkennung, komplexe logische Deduktion oder Probleme erfordern, die sich nicht auf Trainingsdata-Muster abbilden lassen, hat 3.1 Pro einen Vorteil.

Die Lücke beim längeren Kontext ist diejenige, die man tatsächlich gegen die eigenen Daten testen sollte. MRCR v2 bei 128K Kontext zeigt 3.1 Pro bei 84,9 % vs. Flash bei 77,3 % – eine Lücke von 7,6 Punkten. Wenn der Anwendungsfall das Abrufen spezifischer Informationen aus sehr langen Dokumenten, die Analyse juristischer Dokumente oder Needle-in-a-Haystack-Retrieval umfasst, bleibt 3.1 Pro die stärkere Option.

Ein ehrlicher Vorbehalt: Alle oben genannten Hauptzahlen sind von Google selbst berichtet. Validieren Sie diese gegen eigene Prompts und Domain-Constraints, bevor Sie Schlussfolgerungen ziehen.

Multimodale Verständniswerte

CharXiv Reasoning: Flash bei 84,2 %, knapp vor GPT-5.5 mit 84,1 %. OSWorld: 78,4 %, auf Augenhöhe mit GPT-5.5 (78,7 %). Bei multimodalen Pipelines hat Flash den klarsten Upgrade-Fall.

Preisgestaltung und Latenz

Gemini 3.5 Flash Preise

Gemini 3.5 Flash Preisgestaltung: $1,50 pro Million Eingabe-Token, $9 pro Million Ausgabe-Token. Gecachte Eingabe sinkt auf $0,15 pro 1M – die relevante Zahl, wenn Sie wiederholte System-Prompts über Agenten-Loops hinweg ausführen. Kontextfenster: 1.048.576 Eingabe-Token, 65.536 Ausgabe-Token. Dynamic Thinking ist standardmäßig aktiviert mit Stufen (minimal, niedrig, mittel, hoch) für Kosten-/Leistungs-Kompromisse.

Gemini 3.1 Pro Preview Stückkosten

Gemini 3.1 Pro: $2,00 pro Million Cache-Miss-Eingabe-Token, $12,00 pro Million Ausgabe-Token. Kontextfenster: 2,0M Token. Maximale Ausgabe: 16K Token pro Anfrage. Bei über 200K Kontext steigen die Preise auf $4,00 Eingabe / $18,00 Ausgabe. Flash hat einen 4x-Ausgabelimit-Vorteil (65K vs. 16K pro Antwort), was bei der Generierung vollständiger Code-Dateien ohne Abschneiden relevant ist.

Durchsatzvergleich

Flash liefert etwa 284 Token pro Sekunde gegenüber Pros 109. Ein Workflow, der mit Pro drei Minuten dauert, könnte mit Flash in unter neunzig Sekunden abgeschlossen sein, bei 25 % niedrigeren Kosten pro Token.

Geschwindigkeit ist nicht das Ziel. Den Flow nicht zu unterbrechen ist es. Bei 3+ Tool-Aufrufen pro Agenten-Schritt summiert sich diese Lücke schnell.

Produktions-Routing-Entscheidung

Wann Flash der richtige Standard ist

Verwenden Sie Flash als Routing-Standard, wenn:

Ihr Agent mehrere sequenzielle Tool-Aufrufe pro Aufgabe macht (MCP, Function Calling, Code-Execution-Sandbox)
Sie CI/CD-Pipelines oder Terminal-Automatisierungs-Workloads betreiben
Der Kontext unter 100K Token pro Anfrage bleibt
Die Antwortzeit für Benutzer sichtbar ist – bei 284 Token/s gegenüber 109 spielt dies bei interaktiven Produkten eine Rolle

Für MCP-basierte Agenten ist es eindeutig. Flash führt MCP Atlas um 5,4 Punkte, Toolathlon um 7,1, Finance Agent v2 um 14,9. Der Geschwindigkeitsvorteil summiert sich in mehrstufigen Loops. Gecachte Eingabe bei $0,15/1M macht hochfrequente Tool-Nutzung 10x günstiger als das Betreiben von Pro.

Wann 3.1 Pro die Kosten noch wert ist

Zwei Fälle. Einer ist Reasoning-Reinheit: Algorithmus-Design, Beweiskonstruktion, komplexes Debugging, bei dem Sie die Ausgabe nicht ausführen können, um sie zu validieren. ARC-AGI-2 bei 77,1 % vs. 72,1 % ist das Signal. Bei Aufgaben, bei denen Fehler teuer sind und Sie nur einen Versuch haben, zählt diese Lücke.

Der zweite Fall ist langer Kontext. Wenn Ihr Retrieval bei 128K Token oder darüber hinaus operiert – vollständige Codebase-Analyse, Langdokument-RAG, Verträge – testen Sie die MRCR-v2-Lücke gegen Ihre tatsächlichen Retrieval-Längen, bevor Sie wechseln. Das 2,0M-Kontextfenster von 3.1 Pro gibt Ihnen auch Spielraum, den Flash nicht bieten kann.

Wann man auf 3.5 Pro warten sollte, anstatt sich für eines der beiden zu entscheiden

Gemini 3.5 Pro wurde bei I/O am 19. Mai angekündigt, befindet sich aber noch in begrenzter Vertex-Preview, mit erwartetem GA im Juni 2026. Es zielt auf ein 2M-Token-Kontextfenster, Deep Think Reasoning und Frontier-Multimodal ab – die Anwendungsfälle, die Gemini Ultra früher abdeckte.

Warten Sie auf 3.5 Pro, wenn Ihre Kernanforderung hartes Reasoning in großem Maßstab ist und Sie das 2M-Kontextfenster benötigen. Das aktuelle Pro ist 3.1 und gewinnt diese Benchmarks. 3.5 Pro wird diesen Vorsprung wahrscheinlich noch ausweiten.

Die praktische Frage ist der Kalender. Wenn Sie jetzt Produktions-Traffic routen müssen, wählen Sie zwischen Flash und 3.1 Pro. Führen Sie eigene Evals auf Ihrer spezifischen Aufgabenverteilung durch. Das wird Ihnen mehr sagen als alles, was ich sage.

Fallback-Muster für Hochverfügbarkeits-Stacks

Das saubere Muster ist ein Request-Classifier, kein globaler Modell-ID-Ersatz. Führen Sie die Migration nicht als “ersetze jeden Gemini-3.1-pro-preview-String durch Gemini-3.5-Flash” durch. So werden gute Launch-Neuigkeiten zu Produktionsregressionen.

Praktische Fallback-Logik:

Primär: Gemini-3.5-Flash für Agenten- und Coding-Workloads
Eskalation bei Reasoning-Aufgaben: Gemini-3.1-pro-preview – ausgelöst durch Task-Classifier (langer Kontext, neuartige Deduktion, No-Retry-Constraint)
Bei 429 / Quota-Erschöpfung: Erst Flash mit exponentiellem Backoff wiederholen; erst nach zwei fehlgeschlagenen Wiederholungen auf Pro eskalieren
Bei 5xx: Sofort auf Pro zurückfallen, Modell-ID und Fehlergrund protokollieren

Protokollieren Sie Modell-ID, Prompt-Größe, Token-Anzahl, Tool-Call-Anzahl, Latenz, Fallback-Grund und benutzersichtbares Ergebnis. Ohne diese Felder werden Sie über Modellpräferenzen streiten, anstatt Route-Performance zu messen.

Was das für Model Aggregation bedeutet

Warum Phased Rollouts Single-Vendor-Commitments riskanter machen

Die Gemini Agenten-Benchmark-Situation in diesem Monat illustriert ein Muster, das sich durch 2025–2026 beschleunigt hat: Ein Flash-Tier-Modell schlägt das vorherige Pro bei agentischer Arbeit, während Pro beim Reasoning führt. Nächsten Monat erscheint 3.5 Pro. Das Ranking setzt sich erneut zurück.

Das Hardcoden Ihrer Infrastruktur auf eine einzelne Modell-ID bedeutet, dass jede Veröffentlichung eine Migration unter Zeitdruck erzwingt. Die Teams, die diesen Zyklus reibungslos bewältigten, routeten bereits nach Aufgabenklasse, nicht nach Modellname.

Routing über Tiers innerhalb eines Vendors + über Vendors hinweg

Viele Tools zu haben ist nicht das Problem. Die Tools verwalten zu müssen ist es.

Diese Schlussfolgerung hat ein Ablaufdatum. Die Gemini 3.1 Pro vs. Gemini 3.5 Flash-Entscheidung sieht heute wie Flash für die meisten Produktions-Agenten-Workloads aus. Überprüfen Sie die 3.5-Pro-Benchmarks, wenn die Modellkarte im Juni veröffentlicht wird. Die Routing-Logik, die Sie jetzt aufbauen, sollte diese Neubewertung zu einer Config-Änderung machen, nicht zu einer Code-Änderung.

FAQ

Ist Gemini 3.5 Flash strikt besser als Gemini 3.1 Pro?

Nein. Flash übertrifft 3.1 Pro bei agentischen Aufgaben, Tool-Use, Coding und multimodalen Benchmarks. Allerdings führt 3.1 Pro noch bei reinem abstrakten Reasoning (ARC-AGI-2) und Langkontext-Retrieval über 128K Token. Das bessere Modell hängt vollständig von Ihrer Workload-Verteilung ab.

Sollte ich jetzt von 3.1 Pro zu 3.5 Flash migrieren?

Es kommt darauf an. Wenn Ihre Workloads von Agenten, mehrstufigem Tool-Calling, Terminal-Automatisierung oder Coding-Aufgaben dominiert werden, lohnt sich die Migration meist – Sie erhalten bessere Benchmark-Performance, etwa 3x höheren Durchsatz und niedrigere Kosten. Für Langkontext-RAG oder hochriskantes Reasoning, bei dem Fehler teuer sind, testen Sie zuerst eigene Prompts, bevor Sie wechseln.

Wann wird Gemini 3.5 Pro veröffentlicht?

Gemini 3.5 Pro wurde bei I/O 2026 angekündigt, ist aber noch nicht allgemein verfügbar. Es befindet sich derzeit in begrenzter Preview. Google nannte Juni 2026 als Ziel für die vollständige Veröffentlichung. Das aktuelle Produktions-Pro-Modell bleibt Gemini 3.1 Pro Preview.

Hat Gemini 3.5 Flash ein Free Tier?

Ja, es gibt ein Free Tier mit täglichen Kontingenten. Allerdings werden bei ernsthaften Produktions-Agenten-Workloads die Free-Tier-Limits schnell erreicht. Die meisten Produktionsanwendungen sollten das kostenpflichtige Tier einplanen.

Fazit

Die Gemini 3.5 Flash vs. 3.1 Pro-Aufteilung ist klarer als die meisten Flash-vs.-Pro-Vergleiche. Flash gewinnt die Arbeit, die wie Produktion aussieht: Agenten, Tool-Calls, Terminal-Aufgaben, multimodales Grounding. Pro gewinnt die Arbeit, die wie Forschung aussieht: hartes Reasoning, Langkontext-Retrieval, neuartige Deduktion.

Standardmäßig Flash für Agenten-Workloads. Pro als Eskalationsziel für Reasoning-intensive Anfragen und Langkontext-Retrieval über 128K verfügbar halten. Bauen Sie Ihre Fallback-Logik jetzt, damit die 3.5-Pro-Veröffentlichung im Juni ein Config-Update ist, kein Migrations-Sprint.

Hier enden meine Daten. Führen Sie es auf Ihrer eigenen Aufgabenverteilung aus, bevor Sie eine Routing-Änderung in die Produktion übernehmen.

Frühere Beiträge: