Gemini 3.5 Flash est disponible — un modèle Flash-tier domine désormais le tier Pro sur les benchmarks d'agents
Gemini 3.5 Flash est passé en disponibilité générale à I/O 2026 avec la réflexion activée par défaut, 1,50 $/9 $ par million de tokens, et un profil de benchmark qui surpasse Claude Opus 4.7 et GPT-5.5 sur MCP Atlas et la plupart des suites d'agents. Voici où Flash est en tête, où il est dépassé, et comment le déployer.
Google a mis Gemini 3.5 Flash en disponibilité générale le 19 mai 2026, le même jour qu’il a été annoncé à I/O — via l’API Gemini, AI Studio, Antigravity, Vertex AI, l’application Gemini et le mode IA dans Search. L’identifiant du modèle est gemini-3.5-flash (sans suffixe de préversion), l’instantané de mai 2026 est 3.5-flash-05-2026, et la tarification est 1,50 $ en entrée / 9,00 $ en sortie par million de tokens, avec 0,15 $/1M pour l’entrée en cache.
Le chiffre phare concerne les benchmarks : un modèle de niveau Flash surpasse désormais les modèles frontier de niveau Pro sur la plupart des suites d’agents. Claude Opus 4.7 et GPT-5.5 — tous deux de classe Pro, tous deux nettement plus coûteux — sont derrière Flash sur MCP Atlas, Toolathlon et Finance Agent v2. Le code est plus mitigé, et il existe une catégorie claire où Flash perd encore. Voici le tableau complet, une lecture honnête des compromis, et où déployer.
Ce qui a été livré, en un tableau
| Détail | Valeur |
|---|---|
| Identifiant du modèle | gemini-3.5-flash |
| Instantané | 3.5-flash-05-2026 |
| Tarification en entrée | 1,50 $/1M tokens |
| Tarification en sortie | 9,00 $/1M tokens |
| Entrée en cache | 0,15 $/1M tokens |
| Modalités d’entrée | Texte + image + audio + vidéo |
| Modalités de sortie | Texte |
| Fenêtre de contexte | 1 048 576 tokens en entrée / 65 536 en sortie |
| Réflexion | Réflexion dynamique activée par défaut |
| Utilisation d’outils | Appel de fonctions, sortie structurée, recherche comme outil, exécution de code |
| Disponibilité | API Gemini, AI Studio, Antigravity, Vertex AI, application Gemini, mode IA dans Search |
| Revendication de vitesse | ~4× tokens de sortie/sec vs pairs frontier |
Le détail « réflexion activée par défaut » compte plus que ce que la fiche technique laisse paraître. Il ne s’agit pas d’un paramètre thinking_budget que l’on définit par requête — Flash intègre un raisonnement dynamique. Le modèle décide de la profondeur de réflexion en fonction du prompt. Pour du code en production qui tient compte des budgets de latence, c’est une configuration de déploiement différente du basculement de la réflexion étendue de Sonnet 4.6 ou du paramètre reasoning de GPT-5.5.
Benchmarks d’agents : Flash vs niveau Pro
Les données inter-fournisseurs sont là où le positionnement de Flash devient lisible. En s’appuyant sur les comparaisons de lancement dans l’analyse de codage agentique de Digital Applied et l’analyse de lancement de LLM Stats :
| Benchmark | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | Gagnant |
|---|---|---|---|---|
| MCP Atlas | 83,6 % | 79,1 % | 75,3 % | Flash (+4,5 / +8,3) |
| Toolathlon | 56,5 % | — | — | Flash |
| Finance Agent v2 | 57,9 % | — | — | Flash |
| CharXiv Reasoning | 84,2 % | — | — | Flash |
| MMMU-Pro | 83,6 % | — | — | Flash |
| SWE-Bench Pro | — | 64,3 % | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76,2 % | — | 78,2 % | GPT-5.5 (+2,0) |
| OSWorld-Verified | — | — | 78,7 % | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36,2 % | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72,1 % | — | 84,6 % | GPT-5.5 (+12,5) |
Trois lectures de ces résultats :
Sur l’orchestration d’agents, Flash est désormais la valeur par défaut à privilégier en premier. MCP Atlas mesure les workflows multi-étapes pilotés par outils — le cas d’usage que la plupart des stacks d’agents d’entreprise déploient réellement. Surpasser Opus de 4,5 points sur ce benchmark à la tarification Flash représente un glissement significatif de capacité par dollar. Toolathlon et Finance Agent v2 renforcent le schéma : partout où le travail est agentique (planifier, appeler des outils, intégrer des résultats, itérer), Flash est en tête.
Sur le codage en mode terminal, GPT-5.5 gagne encore de justesse. Un écart de 2 points sur Terminal-Bench 2.1 n’est pas décisif — mais combiné à l’avance de GPT-5.5 sur GDPval-AA (113 Elo) et OSWorld-Verified, la lecture est que si votre workflow consiste à « donner au modèle un terminal et une tâche », GPT-5.5 reste le bon choix. Flash réduit l’écart ; il ne comble pas l’avance.
Sur le raisonnement abstrait difficile, Flash a une vraie faiblesse. ARC-AGI-2 est le signal le plus clair ici — Flash perd 12,5 points face à GPT-5.5. C’est cohérent avec ce que nous avons noté hier sur la régression de Flash sur Humanity’s Last Exam et la récupération en contexte long par rapport au précédent Gemini 3.1 Pro. L’architecture Flash a clairement sacrifié la profondeur de raisonnement au profit de la vitesse et du coût. L’arrivée de Gemini 3.5 Pro en juin est vraisemblablement la réponse à ce compromis.
La tarification en contexte
| Modèle | Entrée ($/1M) | Sortie ($/1M) | Ratio sortie | Notes |
|---|---|---|---|---|
| Gemini 3.5 Flash | 1,50 $ | 9,00 $ | 6,0× | Entrée en cache 0,15 $ |
| Claude Sonnet 4.6 | 3,00 $ | 15,00 $ | 5,0× | Contexte 1M fixe |
| Claude Opus 4.7 | 5,00 $ | 25,00 $ | 5,0× | Raisonnement Pro |
| GPT-5.5 | 1,25 $ | 10,00 $ | 8,0× | Entrée la moins chère |
| Gemini 3.1 Pro (précédent) | 2,50 $ | 15,00 $ | 6,0× | 40 % de plus que Flash |
Flash se situe en dessous de Sonnet 4.6 sur les deux axes tout en dépassant Opus 4.7 sur les benchmarks d’agents. C’est l’histoire de tarification que les développeurs doivent assimiler : la valeur par défaut pour l’orchestration d’agents vient de devenir 50 % moins chère en entrée et 40 % moins chère en sortie, avec un profil de benchmark nettement meilleur que la précédente valeur par défaut au même niveau.
La tarification à 0,15 $/1M tokens d’entrée en cache est ce qui fait basculer le calcul en faveur de tout workflow axé sur la RAG ou la mémoire. Si vous injectez 500 000 tokens de contexte en cache par requête, la tarification de niveau cache de Flash représente environ 10 % du tarif d’entrée standard de Sonnet 4.6. Ce n’est pas un point de marge ; c’est une classe de coût différente.
Où Flash s’intègre en production aujourd’hui
Des lectures de déploiement concrètes, basées sur les données de benchmark :
Utilisez Flash pour :
- Les agents MCP / orchestrés par outils. C’est là que Flash excelle vraiment, et l’avantage de prix est le plus important.
- Les workflows API à volume élevé où le coût unitaire compte plus que l’intelligence maximale : transformation de données, classification, extraction structurée, traitement par lots.
- Les pipelines multi-modaux qui prennent des entrées image/audio/vidéo et produisent du texte — Flash prend en charge nativement les quatre modalités d’entrée.
- Les workflows intensifs en cache (RAG en contexte long, mémoire de conversation, recherche documentaire) — l’entrée en cache à 0,15 $/1M est la moins chère au niveau frontier.
N’utilisez pas Flash pour (pour l’instant) :
- Le raisonnement abstrait difficile — les problèmes de type ARC-AGI-2. GPT-5.5 est le bon choix.
- La récupération en contexte long à 128 000+ tokens — Flash a régressé par rapport au précédent Gemini 3.1 Pro ici. Attendez la version 3.5 Pro en juin.
- Les agents de codage en terminal pur — GPT-5.5 conserve encore un avantage de 2 points sur Terminal-Bench, qui se cumule sur les workflows de codage multi-étapes.
- Les charges de travail où vous devez contrôler le budget de réflexion par requête — Flash intègre la réflexion, non exposée comme paramètre.
Ce qui a changé aujourd’hui par rapport à hier
Trois choses ont véritablement évolué avec la sortie de Flash :
- Le modèle d’agent par défaut n’est plus au niveau Pro. « Utilisez le meilleur modèle que vous pouvez vous permettre » cesse d’être un bon conseil pour les workflows d’agents. Pour les tâches orchestrées par MCP, Flash surpasse les modèles Pro des concurrents et coûte moins cher.
- La famille de texte Gemini a rattrapé son retard en capacité agentique. Avant le lancement, le cadre dominant était « Gemini est en retard sur le codage/les agents ». Après le lancement, Flash domine la plupart des suites d’agents et est compétitif sur le codage. Le récit doit être mis à jour.
- L’écart de raisonnement s’est creusé, pas réduit. La régression de Flash sur ARC-AGI-2 et Humanity’s Last Exam est réelle. La sortie de Pro en juin est désormais l’événement décisif pour savoir si Gemini comble cet écart spécifique.
Chemins de déploiement
La configuration de déploiement la plus claire aujourd’hui dépend de la surface sur laquelle vous travaillez :
- API de production directement via Google :
gemini-3.5-flashvia Vertex AI ou AI Studio. Les deux exposent le même modèle. - Dans Antigravity (la surface de codage de type IDE de Google) : le remplacement du modèle par défaut de
gemini-3.1-propargemini-3.5-flashest le bon choix pour la plupart des workflows. - Dans un routeur multi-fournisseurs : ajoutez
gemini-3.5-flashà votre politique d’orchestration d’agents. Pour les chemins MCP / intensifs en outils, routez vers Flash en premier ; repliez-vous sur GPT-5.5 pour le codage en terminal et le raisonnement de type ARC. - Sur WaveSpeedAI : le point de terminaison LLM de WaveSpeedAI vous donne un accès compatible OpenAI aux modèles de texte frontier actuels derrière une seule clé API. Au fur et à mesure que Gemini 3.5 Flash est intégré, vous pourrez le tester en A/B contre le reste de votre lineup de modèles sur la même surface.
Ce qu’il faut surveiller en juin
Deux choses qui se résolvent dans les quatre prochaines semaines :
- Gemini 3.5 Pro sera lancé. C’est la réponse à la question de savoir si la régression de Flash sur le raisonnement et le contexte long sera corrigée. Si Pro dépasse 3.1 Pro sur Humanity’s Last Exam et égale Flash sur Terminal-Bench, toute la famille Gemini 3.5 devient la nouvelle valeur par défaut. Si Pro ne fait que corriger la régression à un coût plus élevé, la gamme reste bifurquée.
- Les réplications indépendantes des benchmarks d’agents. Les chiffres de Google sur MCP Atlas / Toolathlon / Finance Agent sont issus de la première partie. La question intéressante est de savoir si des suites de benchmarks d’agents tierces (LangChain Bench, évaluation MetaGPT, etc.) reproduisent l’avance. Surveillez les études de réplication dans les deux à trois prochaines semaines.
D’ici là : Flash est disponible, le coût d’orchestration des agents vient de baisser, et la question sur la table de la plupart des développeurs cette semaine est de savoir s’il faut migrer le chemin d’agent d’Opus 4.7 vers gemini-3.5-flash aujourd’hui, ou attendre la version 3.5 Pro.
Sources : LLM Stats sur Gemini 3.5 Flash, Comparaison de codage agentique de Digital Applied, Seeking Alpha sur la domination des benchmarks agentiques, Revue Gemini 3.5 Flash de DataCamp, Notes de version Vertex AI.
