Gemini 3.5 Flash vs 3.1 Pro : Vitesse, Agents et Coût

Bonjour, c’est Dora. J’analyse les chiffres de Gemini 3.5 Flash vs 3.1 Pro depuis le lancement Google I/O 2026 du 19 mai et le résumé est le suivant : l’inversion de hiérarchie est réelle, ce n’est pas du marketing, et elle affecte les décisions de routage que vous avez peut-être déjà verrouillées dans un fichier de configuration.

Les modèles Flash sont censés échanger la qualité contre la vitesse. 3.5 Flash rompt ce contrat — du moins sur les charges de travail que la plupart des agents en production exécutent réellement.

Pourquoi Cette Comparaison Est Inhabituelle : Flash Bat l’Ancien Pro

Ce Que Google a Montré à I/O 2026

Gemini 3.5 Flash a été mis en disponibilité générale le 19 mai, avec l’ID de modèle stable Gemini-3.5 Flash sans suffixe de préversion. L’affirmation principale de Google : il surpasse Gemini 3.1 Pro sur les benchmarks de codage et d’agents tout en fonctionnant environ 4x plus vite que les modèles frontières comparables, souvent à moins de la moitié du coût.

L’Inversion de Niveau Expliquée en Un Paragraphe

Flash bat 3.1 Pro sur les benchmarks qui ressemblent à du vrai travail : Terminal-Bench 2.1 (76,2 % vs 70,3 %), MCP Atlas (83,6 % vs 78,2 %), Finance Agent v2 (57,9 % vs 43,0 %), et GDPval-AA Elo (1656 vs 1314). Il est en retrait par rapport à Pro sur Humanity’s Last Exam (40,2 % vs 44,4 %) et ARC-AGI-2 (72,1 % vs 77,1 %) — des benchmarks dominés par la connaissance paramétrique brute et le raisonnement abstrait pur. Lors de l’évaluation de Gemini 3.5 Flash vs 3.1 Pro, la séparation est nette : le travail d’agent va à Flash, le raisonnement difficile reste avec Pro.

Face-à-Face : Benchmarks et Ce Qu’ils Mesurent Réellement

Le cas du benchmark Gemini 3.5 Flash contre 3.1 Pro est spécifique, pas universel. Voici ce que les chiffres montrent réellement.

Terminal-Bench 2.1 mesure la capacité à exécuter des tâches terminales en plusieurs étapes — lire l’état du système de fichiers, écrire et exécuter des scripts, gérer la sortie d’erreur, réessayer. Flash obtient 76,2 % contre 70,3 % pour 3.1 Pro. Cet écart de presque 6 points est significatif pour les pipelines automatisés où le modèle opère le terminal plutôt que de conseiller un opérateur humain.

MCP Atlas est celui sur lequel je reviens sans cesse. Il teste la fiabilité de l’utilisation d’outils à grande échelle — dans quelle mesure un modèle maintient des invocations d’outils correctes sur des séquences multi-appels étendues (8 à 15 appels par tâche, contexte de 4k à 12k tokens par appel). Le 83,6 % de Flash bat le 78,2 % de 3.1 Pro et devance également tous les concurrents, y compris Claude Opus 4.7 (79,1 %) et GPT-5.5 (75,3 %). Pour les développeurs qui construisent des agents autonomes intégrant la recherche web, des bases de données vectorielles et des environnements d’exécution de code, c’est le benchmark à peser le plus lourdement.

GDPval-AA Elo : Flash à 1656 contre Pro à 1314. Un écart de 342 points sur une évaluation agentique en tâche réelle. Ce n’est pas une erreur d’arrondi.

Où 3.1 Pro Gagne Encore (ARC-AGI-2, Récupération Long Contexte)

Les scores ARC-AGI-2 favorisent Pro de 5 points (77,1 % vs 72,1 %). Pour les tâches nécessitant une reconnaissance de motifs nouveaux, une déduction logique complexe, ou des problèmes qui ne correspondent pas aux motifs de données d’entraînement, 3.1 Pro a un avantage.

L’écart sur les contextes longs est celui à tester réellement contre vos données. MRCR v2 à un contexte de 128K montre 3.1 Pro à 84,9 % vs Flash à 77,3 % — un écart de 7,6 points. Si votre cas d’utilisation implique la récupération d’informations spécifiques dans de très longs documents, l’analyse de documents juridiques, ou la récupération d’une aiguille dans une botte de foin, 3.1 Pro reste l’option la plus solide.

Une mise en garde honnête : tous les chiffres principaux ci-dessus sont auto-déclarés par Google. Validez avec vos propres requêtes et contraintes de domaine avant de tirer des conclusions.

Scores de Compréhension Multimodale

CharXiv Reasoning : Flash à 84,2 %, dépassant légèrement GPT-5.5 (84,1 %). OSWorld : 78,4 %, à égalité avec GPT-5.5 (78,7 %). Sur les pipelines multimodaux, Flash présente le cas de mise à niveau le plus clair.

Tarification et Latence

Tarification de Gemini 3.5 Flash

Tarification de Gemini 3.5 Flash : $1,50 par million de tokens d’entrée, $9 par million de tokens de sortie. L’entrée mise en cache tombe à $0,15 par million — le chiffre pertinent si vous exécutez des invites système répétées dans des boucles d’agent. Fenêtre de contexte : 1 048 576 tokens d’entrée, 65 536 tokens de sortie. La réflexion dynamique est activée par défaut avec des niveaux (minimal, faible, moyen, élevé) pour les compromis coût/performance.

Coût Unitaire de Gemini 3.1 Pro Preview

Gemini 3.1 Pro : $2,00 par million de tokens d’entrée sans cache, $12,00 par million de tokens de sortie. Fenêtre de contexte : 2,0M de tokens. Sortie maximale : 16K tokens par requête. Au-delà de 200K de contexte, la tarification passe à $4,00 entrée / $18,00 sortie. Flash a un avantage de limite de sortie 4x (65K vs 16K par réponse), ce qui importe pour générer des fichiers de code complets sans troncature.

Comparaison du Débit

Flash délivre environ 284 tokens par seconde contre 109 pour Pro. Un workflow qui prend trois minutes avec Pro pourrait se terminer en moins de quatre-vingt-dix secondes avec Flash, à un coût par token 25 % inférieur.

La vitesse n’est pas le but. Ne pas briser le flux l’est. À 3+ appels d’outils par étape d’agent, cet écart se compose rapidement.

Décision de Routage en Production

Quand Flash Est le Bon Défaut

Utilisez Flash comme défaut de routage si :

Votre agent effectue plusieurs appels d’outils séquentiels par tâche (MCP, appel de fonction, environnement d’exécution de code)
Vous êtes sur des pipelines CI/CD ou des charges de travail d’automatisation terminal
Le contexte reste en dessous de 100K tokens par requête
Le temps de réponse est visible par l’utilisateur — à 284 tokens/s contre 109, cela importe pour les produits interactifs

Pour les agents basés sur MCP, ce n’est pas serré. Flash devance MCP Atlas de 5,4 points, Toolathlon de 7,1, Finance Agent v2 de 14,9. L’avantage de vitesse se compose dans les boucles multi-étapes. L’entrée mise en cache à $0,15/1M rend l’utilisation fréquente d’outils 10x moins chère que l’exécution de Pro.

Quand 3.1 Pro Vaut Encore le Coût

Deux cas. L’un est la pureté du raisonnement : conception d’algorithmes, construction de preuves, débogage complexe où vous ne pouvez pas exécuter la sortie pour la valider. ARC-AGI-2 à 77,1 % vs 72,1 % est le signal. Dans les tâches où les erreurs sont coûteuses et où vous n’avez qu’une seule chance, cet écart compte.

Le second cas est le long contexte. Si votre récupération fonctionne à 128K tokens ou au-delà — analyse complète de base de code, RAG de longs documents, contrats — testez l’écart MRCR v2 contre vos longueurs de récupération réelles avant de changer. La fenêtre de contexte de 2,0M de 3.1 Pro vous donne également une marge que Flash ne peut pas égaler.

Quand Attendre 3.5 Pro Plutôt que de Choisir l’Un ou l’Autre

Gemini 3.5 Pro a été annoncé à I/O le 19 mai mais est encore en préversion Vertex limitée, avec une disponibilité générale prévue en juin 2026. Il cible une fenêtre de contexte de 2M tokens, le raisonnement Deep Think, et le multimodal frontière — les cas d’utilisation que Gemini Ultra couvrait auparavant.

Attendez 3.5 Pro si votre exigence principale est un raisonnement difficile à grande échelle et que vous avez besoin de la fenêtre de contexte de 2M. Le Pro actuel est 3.1 et il gagne ces benchmarks. 3.5 Pro est susceptible d’élargir encore cet avantage.

La question pratique est le calendrier. Si vous devez router le trafic de production maintenant, vous choisissez entre Flash et 3.1 Pro. Exécutez vos propres évaluations sur votre distribution de tâches spécifique. Cela vous dira plus que tout ce que je peux dire.

Modèles de Repli pour les Stacks Haute Disponibilité

Le modèle propre est un classificateur de requêtes, pas un remplacement global d’ID de modèle. N’exécutez pas la migration en remplaçant chaque chaîne “Gemini-3.1-pro-preview” par “Gemini-3.5-Flash”. C’est ainsi que de bonnes nouvelles de lancement se transforment en régressions de production.

Logique de repli pratique :

Principal : Gemini-3.5-Flash pour les charges de travail d’agent et de codage
Escalade sur les tâches de raisonnement : Gemini-3.1-pro-preview — déclenché par le classificateur de tâches (long contexte, déduction nouvelle, contrainte sans nouvelle tentative)
Sur 429 / épuisement de quota : réessayer Flash avec un backoff exponentiel d’abord ; escalader vers Pro seulement après deux tentatives échouées
Sur 5xx : basculer immédiatement vers Pro, journaliser l’ID du modèle et la raison de l’échec

Journalisez l’ID du modèle, la taille de la requête, le nombre de tokens, le nombre d’appels d’outils, la latence, la raison du repli et le résultat visible par l’utilisateur. Sans ces champs, vous débattrez des préférences de modèle au lieu de mesurer les performances de routage.

Ce Que Cela Signifie pour l’Agrégation de Modèles

Pourquoi les Déploiements Progressifs Rendent les Engagements Mono-Vendeur Plus Risqués

La situation du benchmark d’agent Gemini ce mois-ci illustre un modèle qui s’est accéléré tout au long de 2025-2026 : un modèle de niveau Flash bat l’ancien Pro sur le travail agentique, tandis que Pro tient sur le raisonnement. Le mois prochain, 3.5 Pro sera disponible. Le classement se réinitialise à nouveau.

Coder votre infrastructure en dur sur un seul ID de modèle signifie que chaque version force une migration sous pression de temps. Les équipes qui ont géré ce cycle en douceur routaient déjà par classe de tâche, pas par nom de modèle.

Routage Entre Niveaux au Sein d’un Vendeur + Entre Vendeurs

Avoir de nombreux outils n’est pas le problème. Devoir gérer vos outils l’est.

Cette conclusion a une date d’expiration. La décision Gemini 3.1 Pro vs Gemini 3.5 Flash ressemble à Flash pour la plupart du travail d’agent en production, aujourd’hui. Vérifiez les benchmarks de 3.5 Pro quand la fiche modèle sera publiée en juin. La logique de routage que vous construisez maintenant devrait faire de cette réévaluation un changement de configuration, pas un changement de code.

FAQ

Gemini 3.5 Flash est-il strictement meilleur que Gemini 3.1 Pro ?

Non. Flash surpasse 3.1 Pro sur les tâches agentiques, l’utilisation d’outils, le codage et les benchmarks multimodaux. Cependant, 3.1 Pro mène encore sur le raisonnement abstrait pur (ARC-AGI-2) et la récupération en long contexte au-delà de 128K tokens. Le meilleur modèle dépend entièrement de votre distribution de charge de travail.

Dois-je migrer de 3.1 Pro vers 3.5 Flash right now ?

Cela dépend. Si vos charges de travail sont dominées par des agents, l’appel d’outils multi-étapes, l’automatisation terminal ou les tâches de codage, la migration en vaut généralement la peine — vous obtiendrez de meilleures performances sur les benchmarks, un débit environ 3x plus élevé et un coût inférieur. Pour le RAG en long contexte ou le raisonnement à enjeux élevés où les erreurs sont coûteuses, testez d’abord vos propres requêtes avant de changer.

Quand Gemini 3.5 Pro sera-t-il disponible ?

Gemini 3.5 Pro a été annoncé à I/O 2026 mais n’est pas encore généralement disponible. Il est actuellement en préversion limitée. Google a indiqué une cible de juin 2026 pour la version complète. Le modèle Pro de production actuel reste Gemini 3.1 Pro Preview.

Gemini 3.5 Flash dispose-t-il d’un niveau gratuit ?

Oui, il existe un niveau gratuit avec des quotas journaliers. Cependant, pour toute charge de travail d’agent en production sérieuse, les limites du niveau gratuit seront probablement atteintes rapidement. La plupart des cas d’utilisation en production devraient planifier sur le niveau payant.

Conclusion

La séparation Gemini 3.5 Flash vs 3.1 Pro est plus nette que la plupart des comparaisons Flash vs. Pro. Flash gagne le travail qui ressemble à la production : agents, appels d’outils, tâches terminales, ancrage multimodal. Pro gagne le travail qui ressemble à la recherche : raisonnement difficile, récupération en long contexte, déduction nouvelle.

Utilisez Flash par défaut pour les charges de travail d’agent. Gardez Pro disponible comme cible d’escalade pour les requêtes à raisonnement intensif et la récupération en long contexte au-delà de 128K. Construisez votre logique de repli maintenant afin que la version 3.5 Pro en juin soit une mise à jour de configuration, pas un sprint de migration.

C’est là que mes données s’arrêtent. Exécutez-le sur votre propre distribution de tâches avant de valider un changement de routage en production.

Articles précédents :