← Blog

Gemini 3.5 Pro kommt nächsten Monat — Was uns das Flash-Release bereits verrät

Google hat Gemini 3.5 Flash auf dem I/O 2026 vorgestellt und Pro für Juni zurückgehalten. Flash übertrifft bereits Gemini 3.1 Pro bei Coding- und agentischen Benchmarks, zeigt jedoch Rückschritte bei komplexem Reasoning — genau die Lücke, die Pro schließen soll. Was bekannt ist, was nicht, und wie man plant.

By WaveSpeedAI 6 min read

Am Tag nach der I/O-2026-Keynote wurde die Frage vor der Keynote beantwortet, ob Google „Gemini 3.5” oder „Gemini 4.0” veröffentlichen würde. Es ist 3.5. Doch der interessantere Teil ist, was Google tatsächlich auf den Markt gebracht hat und was zurückgehalten wurde: Gemini 3.5 Flash wurde am 19. Mai zur allgemeinen Verfügbarkeit freigegeben; Gemini 3.5 Pro kommt „nächsten Monat”. Sundar Pichais genaue Aussage auf der Bühne: „Gebt uns bis nächsten Monat Zeit, es euch zu bringen.”

Das Publikum soll gestöhnt haben. Eine verständliche Reaktion – aber die Lücke ist auch interessanter als sie aussieht. Flash übertrifft Gemini 3.1 Pro bereits bei den Benchmarks, die für Entwickler am wichtigsten sind – und verschlechtert sich bei einer bestimmten Gruppe von Reasoning- und Long-Context-Benchmarks. Dass Pro einen Monat später erscheint, ist mit ziemlicher Sicherheit Googles Antwort auf diese Regression. Hier ist, was der Flash-Launch über das verrät, was Pro tatsächlich sein wird.

Bestätigt: Was Google über 3.5 Pro gesagt hat

Googles Aussagen zu Pro auf der Bühne waren minimal. Die vollständige Liste bestätigter Fakten:

DetailQuelleStatus
Erscheint „nächsten Monat” (Juni 2026)Pichai-KeynoteBestätigt
Derzeit in internem TestingPichai-KeynoteBestätigt
Teilt Flashs Coding-/Agentic-FokusI/O-MessagingBestätigt
Spezifische Benchmark-ZahlenNicht veröffentlicht
PreisgestaltungNicht veröffentlicht
KontextfensterNicht veröffentlicht
Modell-IDNicht veröffentlicht

Das war’s. Keine Benchmarks, keine Preise, keine Modellkarte. Das Pro-Release ist genau eine Absichtserklärung und ein Zeitplan.

Was die Flash-Daten über Pro verraten

Hier wird es nützlich. Gemini 3.5 Flash wurde am selben Tag mit vollständigen Benchmarks veröffentlicht, und der Vergleich mit dem Gemini 3.1 Pro der vorherigen Generation zeigt genau, wo die neue Generation stark ist und wo sie schwächer ist.

Wo Flash Gemini 3.1 Pro schlägt

Benchmark3.5 Flash3.1 ProDelta
Terminal-Bench 2.176,2 %70,3 %+5,9
MCP Atlas83,6 %78,2 %+5,4
Finance Agent v257,9 %43,0 %+14,9
GDPval-AA1656 Elo1314 Elo+342

Das sind alles Coding- und Agentic-Benchmarks – die Kategorien, in denen Claude der Standard für Entwickler war. Flash liegt bei diesen Benchmarks jetzt näher an Claude als es die vorherige Pro-Stufe war. Das ist eine bedeutende Produktveränderung, keine marginale.

Wo Flash gegenüber Gemini 3.1 Pro zurückfällt

Benchmark3.5 Flash3.1 ProDelta
Humanity’s Last Exam40,2 %44,4 %−4,2
ARC-AGI-272,1 %77,1 %−5,0
Long-Context (128K)77,3 %84,9 %−7,6

Dies sind genau die Benchmarks, bei denen eine Pro-Stufe sich differenzieren würde. Schwieriges Reasoning. Abstraktes Mustererkennen. Long-Context-Retrieval. Die ersten beiden testen Tiefe; der dritte testet Abruf im großen Maßstab. Dass Flash bei jedem 4–8 Punkte verliert, zeigt, dass die Flash-Architektur bewusste Kompromisse eingegangen ist, um die Geschwindigkeits- und Kostenzahlen zu erreichen.

Der Start von 3.5 Pro im Juni ist mit ziemlicher Sicherheit Googles Antwort auf genau diese Liste. Der Daseinszweck von Pro ist es, den Reasoning- und Long-Context-Vorsprung wiederherzustellen, den Flash aufgegeben hat. Wenn Pro bei Humanity’s Last Exam über 3.1 Pro landet und bei Terminal-Bench mit Flash gleichzieht, ist es das stärkste Frontier-Produktionsmodell. Wenn es die Regression nur auf Kosten der Agentic-Geschwindigkeit behebt, ist es eine andere Positionierung.

Was die Flash-Preisgestaltung über Pro impliziert

Flash wurde zum Standardtarif mit 1,50 $ Input / 9,00 $ Output pro 1M Token eingeführt – 40 % günstiger als Gemini 3.1 Pro auf beiden Achsen. Gecachter Input liegt bei 0,15 $/1M, was die Headline-Zahl für retrieval-intensive Workloads ist.

Die naheliegende Einschätzung zur Pro-Preisgestaltung:

  • Wenn Pro zum Preis von Gemini 3.1 Pro oder darüber hinaus startet (~2,50 $/15 $/1M oder höher), signalisiert das, dass Pro als Premium-Reasoning-Stufe positioniert ist und nicht als Flash-Ersatz.
  • Wenn Pro unter dem Preis von 3.1 Pro, aber über Flash liegt, ist es als Standard-„intelligenteres Flash” positioniert – gleiche Produktoberfläche, höhere Fähigkeit, moderater Aufpreis.
  • Wenn Pro dem Flash-Preis entspricht, wäre das ungewöhnlich und würde Flash in dieselbe unangenehme Position bringen, in der sich Seedance 2.0 Fast derzeit befindet (siehe unsere Seedance 2.1 / Mini-Vorschau für das analoge Stufenkollisionsproblem).

Die erste Option ist am wahrscheinlichsten. Google setzt strukturell darauf, dass Kunden für die Trennung in Reasoning-Stufen zahlen werden. Das Stöhnen des Publikums legt nahe, dass der Markt Flash für ausreichend und Pro für unnötig hält; ob der Markt recht hat, werden wir erst wissen, wenn Entwickler ihre eigenen Evals gegen die Juni-Modellkarte laufen lassen.

Weitere Dinge, die im Juni zu beobachten sind

Wenn die Pro-Modellkarte erscheint, sind vier Details wichtig:

  1. Erreicht Pro bei Coding (Terminal-Bench, MCP Atlas) das Niveau von Flash? Wenn ja, ist Pro eine strikte Obermenge. Wenn nein, werden zwei Endpunkte betrieben – Flash für Agents, Pro für Reasoning – und die Integrationskosten steigen.
  2. Long-Context-Zahlen. Wenn Pro den Vorsprung von Gemini 3.1 Pro bei 128K wiederherstellt und das 1M-Token-Kontextfenster von Flash erweitert, ist das das produktionsrelevanteste Signal. RAG-intensive Workloads sollten ihre Migration speziell auf Basis dieser Zahl planen.
  3. Multimodale Ankündigungen. Flash wurde mit demselben Bild-/Videoverständnis wie die 3.0-Reihe eingeführt. Wenn Pro mit der Gemini-Omni-Videogenerations-Integration erscheint (Stand 20. Mai noch Gerücht), ist das eine Vereinheitlichungsgeschichte, die Google noch nicht erzählen kann.
  4. Ob Pro ein Thinking-Modell ist. Googles jüngste Reasoning-Modelle wurden mit optionalen „Thinking”-Modi ausgeliefert, die Latenz gegen Genauigkeit tauschen. Wenn 3.5 Pro standardmäßig Thinking aktiviert hat oder eine Steuerung pro Anfrage ermöglicht, beeinflusst das maßgeblich, wie es in der Produktion eingesetzt werden würde.

Was diesen Monat zu tun ist

Während Pro im internen Testing ist, drei konkrete Schritte:

  1. Evals gegen 3.5 Flash diese Woche ausführen. Es ist live über die Gemini API, Google AI Studio, Vertex, Antigravity und die Gemini-App unter der Modell-ID gemini-3.5-flash. Wenn Flash Ihre Workload bereits abdeckt, brauchen Sie Pro möglicherweise gar nicht.
  2. Für Long-Context- oder anspruchsvolle Reasoning-Workloads vorerst bei Gemini 3.1 Pro bleiben. Nicht auf Flash migrieren, nur weil es das neueste Modell ist – die 7,6-Punkte-Regression bei 128K ist real. Auf Pro warten.
  3. Den A/B-Test für Juni jetzt einrichten. Den Flash-→-Pro-Vergleichs-Eval definieren, bevor Pro erscheint. Die Versuchung, am Launch-Tag zu wechseln, ist real; der Wert eines gehaltenen Benchmarks, den man bereits gegen Flash und 3.1 Pro durchgeführt hat, ist noch realer.

Bis Pro verfügbar ist

Für LLM-seitige Workloads bietet der WaveSpeedAI-LLM-Endpunkt OpenAI-kompatiblen Zugriff auf die aktuellen Frontier-Textmodelle hinter einem einzigen API-Schlüssel. Wenn Gemini 3.5 Pro im Juni erscheint, ist zu erwarten, dass es innerhalb von Tagen unter demselben Endpunkt vergleichbar ist – zusammen mit Flash und dem Rest der Frontier-Text-Produktpalette.