Gemini 3.5 Flash est disponible — un modèle Flash-tier domine désormais le tier Pro sur les benchmarks d'agents

Google a mis Gemini 3.5 Flash en disponibilité générale le 19 mai 2026, le même jour qu’il a été annoncé à I/O — via l’API Gemini, AI Studio, Antigravity, Vertex AI, l’application Gemini et le mode IA dans Search. L’identifiant du modèle est gemini-3.5-flash (sans suffixe de préversion), l’instantané de mai 2026 est 3.5-flash-05-2026, et la tarification est 1,50 $ en entrée / 9,00 $ en sortie par million de tokens, avec 0,15 $/1M pour l’entrée en cache.

Le chiffre phare concerne les benchmarks : un modèle de niveau Flash surpasse désormais les modèles frontier de niveau Pro sur la plupart des suites d’agents. Claude Opus 4.7 et GPT-5.5 — tous deux de classe Pro, tous deux nettement plus coûteux — sont derrière Flash sur MCP Atlas, Toolathlon et Finance Agent v2. Le code est plus mitigé, et il existe une catégorie claire où Flash perd encore. Voici le tableau complet, une lecture honnête des compromis, et où déployer.

Ce qui a été livré, en un tableau

Détail	Valeur
Identifiant du modèle	`gemini-3.5-flash`
Instantané	`3.5-flash-05-2026`
Tarification en entrée	1,50 $/1M tokens
Tarification en sortie	9,00 $/1M tokens
Entrée en cache	0,15 $/1M tokens
Modalités d’entrée	Texte + image + audio + vidéo
Modalités de sortie	Texte
Fenêtre de contexte	1 048 576 tokens en entrée / 65 536 en sortie
Réflexion	Réflexion dynamique activée par défaut
Utilisation d’outils	Appel de fonctions, sortie structurée, recherche comme outil, exécution de code
Disponibilité	API Gemini, AI Studio, Antigravity, Vertex AI, application Gemini, mode IA dans Search
Revendication de vitesse	~4× tokens de sortie/sec vs pairs frontier

Le détail « réflexion activée par défaut » compte plus que ce que la fiche technique laisse paraître. Il ne s’agit pas d’un paramètre thinking_budget que l’on définit par requête — Flash intègre un raisonnement dynamique. Le modèle décide de la profondeur de réflexion en fonction du prompt. Pour du code en production qui tient compte des budgets de latence, c’est une configuration de déploiement différente du basculement de la réflexion étendue de Sonnet 4.6 ou du paramètre reasoning de GPT-5.5.

Benchmarks d’agents : Flash vs niveau Pro

Les données inter-fournisseurs sont là où le positionnement de Flash devient lisible. En s’appuyant sur les comparaisons de lancement dans l’analyse de codage agentique de Digital Applied et l’analyse de lancement de LLM Stats :

Benchmark	Gemini 3.5 Flash	Claude Opus 4.7	GPT-5.5	Gagnant
MCP Atlas	83,6 %	79,1 %	75,3 %	Flash (+4,5 / +8,3)
Toolathlon	56,5 %	—	—	Flash
Finance Agent v2	57,9 %	—	—	Flash
CharXiv Reasoning	84,2 %	—	—	Flash
MMMU-Pro	83,6 %	—	—	Flash
SWE-Bench Pro	—	64,3 %	—	Opus 4.7
Terminal-Bench 2.1	76,2 %	—	78,2 %	GPT-5.5 (+2,0)
OSWorld-Verified	—	—	78,7 %	GPT-5.5
Blueprint-Bench 2	—	—	36,2 %	GPT-5.5
GDPval-AA	1656 Elo	—	1769 Elo	GPT-5.5 (+113)
ARC-AGI-2	72,1 %	—	84,6 %	GPT-5.5 (+12,5)

Trois lectures de ces résultats :

Sur l’orchestration d’agents, Flash est désormais la valeur par défaut à privilégier en premier. MCP Atlas mesure les workflows multi-étapes pilotés par outils — le cas d’usage que la plupart des stacks d’agents d’entreprise déploient réellement. Surpasser Opus de 4,5 points sur ce benchmark à la tarification Flash représente un glissement significatif de capacité par dollar. Toolathlon et Finance Agent v2 renforcent le schéma : partout où le travail est agentique (planifier, appeler des outils, intégrer des résultats, itérer), Flash est en tête.

Sur le codage en mode terminal, GPT-5.5 gagne encore de justesse. Un écart de 2 points sur Terminal-Bench 2.1 n’est pas décisif — mais combiné à l’avance de GPT-5.5 sur GDPval-AA (113 Elo) et OSWorld-Verified, la lecture est que si votre workflow consiste à « donner au modèle un terminal et une tâche », GPT-5.5 reste le bon choix. Flash réduit l’écart ; il ne comble pas l’avance.

Sur le raisonnement abstrait difficile, Flash a une vraie faiblesse. ARC-AGI-2 est le signal le plus clair ici — Flash perd 12,5 points face à GPT-5.5. C’est cohérent avec ce que nous avons noté hier sur la régression de Flash sur Humanity’s Last Exam et la récupération en contexte long par rapport au précédent Gemini 3.1 Pro. L’architecture Flash a clairement sacrifié la profondeur de raisonnement au profit de la vitesse et du coût. L’arrivée de Gemini 3.5 Pro en juin est vraisemblablement la réponse à ce compromis.

La tarification en contexte

Modèle	Entrée ($/1M)	Sortie ($/1M)	Ratio sortie	Notes
Gemini 3.5 Flash	1,50 $	9,00 $	6,0×	Entrée en cache 0,15 $
Claude Sonnet 4.6	3,00 $	15,00 $	5,0×	Contexte 1M fixe
Claude Opus 4.7	5,00 $	25,00 $	5,0×	Raisonnement Pro
GPT-5.5	1,25 $	10,00 $	8,0×	Entrée la moins chère
Gemini 3.1 Pro (précédent)	2,50 $	15,00 $	6,0×	40 % de plus que Flash

Flash se situe en dessous de Sonnet 4.6 sur les deux axes tout en dépassant Opus 4.7 sur les benchmarks d’agents. C’est l’histoire de tarification que les développeurs doivent assimiler : la valeur par défaut pour l’orchestration d’agents vient de devenir 50 % moins chère en entrée et 40 % moins chère en sortie, avec un profil de benchmark nettement meilleur que la précédente valeur par défaut au même niveau.

La tarification à 0,15 $/1M tokens d’entrée en cache est ce qui fait basculer le calcul en faveur de tout workflow axé sur la RAG ou la mémoire. Si vous injectez 500 000 tokens de contexte en cache par requête, la tarification de niveau cache de Flash représente environ 10 % du tarif d’entrée standard de Sonnet 4.6. Ce n’est pas un point de marge ; c’est une classe de coût différente.

Où Flash s’intègre en production aujourd’hui

Des lectures de déploiement concrètes, basées sur les données de benchmark :

Utilisez Flash pour :

Les agents MCP / orchestrés par outils. C’est là que Flash excelle vraiment, et l’avantage de prix est le plus important.
Les workflows API à volume élevé où le coût unitaire compte plus que l’intelligence maximale : transformation de données, classification, extraction structurée, traitement par lots.
Les pipelines multi-modaux qui prennent des entrées image/audio/vidéo et produisent du texte — Flash prend en charge nativement les quatre modalités d’entrée.
Les workflows intensifs en cache (RAG en contexte long, mémoire de conversation, recherche documentaire) — l’entrée en cache à 0,15 $/1M est la moins chère au niveau frontier.

N’utilisez pas Flash pour (pour l’instant) :

Le raisonnement abstrait difficile — les problèmes de type ARC-AGI-2. GPT-5.5 est le bon choix.
La récupération en contexte long à 128 000+ tokens — Flash a régressé par rapport au précédent Gemini 3.1 Pro ici. Attendez la version 3.5 Pro en juin.
Les agents de codage en terminal pur — GPT-5.5 conserve encore un avantage de 2 points sur Terminal-Bench, qui se cumule sur les workflows de codage multi-étapes.
Les charges de travail où vous devez contrôler le budget de réflexion par requête — Flash intègre la réflexion, non exposée comme paramètre.

Ce qui a changé aujourd’hui par rapport à hier

Trois choses ont véritablement évolué avec la sortie de Flash :

Le modèle d’agent par défaut n’est plus au niveau Pro. « Utilisez le meilleur modèle que vous pouvez vous permettre » cesse d’être un bon conseil pour les workflows d’agents. Pour les tâches orchestrées par MCP, Flash surpasse les modèles Pro des concurrents et coûte moins cher.
La famille de texte Gemini a rattrapé son retard en capacité agentique. Avant le lancement, le cadre dominant était « Gemini est en retard sur le codage/les agents ». Après le lancement, Flash domine la plupart des suites d’agents et est compétitif sur le codage. Le récit doit être mis à jour.
L’écart de raisonnement s’est creusé, pas réduit. La régression de Flash sur ARC-AGI-2 et Humanity’s Last Exam est réelle. La sortie de Pro en juin est désormais l’événement décisif pour savoir si Gemini comble cet écart spécifique.

Chemins de déploiement

La configuration de déploiement la plus claire aujourd’hui dépend de la surface sur laquelle vous travaillez :

API de production directement via Google : gemini-3.5-flash via Vertex AI ou AI Studio. Les deux exposent le même modèle.
Dans Antigravity (la surface de codage de type IDE de Google) : le remplacement du modèle par défaut de gemini-3.1-pro par gemini-3.5-flash est le bon choix pour la plupart des workflows.
Dans un routeur multi-fournisseurs : ajoutez gemini-3.5-flash à votre politique d’orchestration d’agents. Pour les chemins MCP / intensifs en outils, routez vers Flash en premier ; repliez-vous sur GPT-5.5 pour le codage en terminal et le raisonnement de type ARC.
Sur WaveSpeedAI : le point de terminaison LLM de WaveSpeedAI vous donne un accès compatible OpenAI aux modèles de texte frontier actuels derrière une seule clé API. Au fur et à mesure que Gemini 3.5 Flash est intégré, vous pourrez le tester en A/B contre le reste de votre lineup de modèles sur la même surface.

Ce qu’il faut surveiller en juin

Deux choses qui se résolvent dans les quatre prochaines semaines :

Gemini 3.5 Pro sera lancé. C’est la réponse à la question de savoir si la régression de Flash sur le raisonnement et le contexte long sera corrigée. Si Pro dépasse 3.1 Pro sur Humanity’s Last Exam et égale Flash sur Terminal-Bench, toute la famille Gemini 3.5 devient la nouvelle valeur par défaut. Si Pro ne fait que corriger la régression à un coût plus élevé, la gamme reste bifurquée.
Les réplications indépendantes des benchmarks d’agents. Les chiffres de Google sur MCP Atlas / Toolathlon / Finance Agent sont issus de la première partie. La question intéressante est de savoir si des suites de benchmarks d’agents tierces (LangChain Bench, évaluation MetaGPT, etc.) reproduisent l’avance. Surveillez les études de réplication dans les deux à trois prochaines semaines.

D’ici là : Flash est disponible, le coût d’orchestration des agents vient de baisser, et la question sur la table de la plupart des développeurs cette semaine est de savoir s’il faut migrer le chemin d’agent d’Opus 4.7 vers gemini-3.5-flash aujourd’hui, ou attendre la version 3.5 Pro.

Sources : LLM Stats sur Gemini 3.5 Flash, Comparaison de codage agentique de Digital Applied, Seeking Alpha sur la domination des benchmarks agentiques, Revue Gemini 3.5 Flash de DataCamp, Notes de version Vertex AI.

Ce qui a été livré, en un tableau

Benchmarks d’agents : Flash vs niveau Pro

La tarification en contexte

Où Flash s’intègre en production aujourd’hui

Utilisez Flash pour :

N’utilisez pas Flash pour (pour l’instant) :

Ce qui a changé aujourd’hui par rapport à hier

Chemins de déploiement

Ce qu’il faut surveiller en juin

Articles associés

Claude Fable 5 vient de sortir : 80,3 % sur SWE-Bench Pro, prix 2× Opus 4.8, gratuit jusqu'au 22 juin

Gemini 3.5 Pro arrive le mois prochain — ce que la sortie de Flash nous révèle déjà

Gemini Omni Flash est disponible : vidéo multi-modale en 10 secondes, watermark SynthID, édition audio non incluse

Gemini 4.0 à Google I/O 2026 : Ce qui est confirmé, ce qui vient de sources anonymes, ce que les développeurs doivent vraiment surveiller

Les démos de Gemini Omni viennent de fuiter — voici ce que fait vraiment le nouveau modèle vidéo de Google

Le mystérieux modèle vidéo 'Omni' de Google : ce que la fuite de l'interface Gemini nous révèle avant Google I/O 2026