Gemini 3.5 Flash ya disponible — un modelo de nivel Flash lidera los benchmarks del nivel Pro en agentes
Gemini 3.5 Flash llegó a disponibilidad general en I/O 2026 con razonamiento activado por defecto, $1,50/$9 por millón de tokens, y un perfil de rendimiento que supera a Claude Opus 4.7 y GPT-5.5 en MCP Atlas y la mayoría de suites de agentes. Aquí se muestra dónde Flash lidera, dónde pierde y cómo desplegarlo.
Google lanzó Gemini 3.5 Flash con disponibilidad general el 19 de mayo de 2026, el mismo día que lo anunció en I/O — en la API de Gemini, AI Studio, Antigravity, Vertex AI, la aplicación Gemini y el Modo AI en Search. El ID del modelo es gemini-3.5-flash (sin sufijo de vista previa), el snapshot de mayo de 2026 es 3.5-flash-05-2026, y el precio es $1,50 entrada / $9,00 salida por 1M de tokens con $0,15/1M para entrada en caché.
El número titular está en el lado de los benchmarks: un modelo de nivel Flash ahora supera a los modelos de nivel Pro en la mayoría de los conjuntos de agentes. Claude Opus 4.7 y GPT-5.5 — ambos de clase Pro, ambos considerablemente más caros — quedan detrás de Flash en MCP Atlas, Toolathlon y Finance Agent v2. El coding es más mixto, y hay una categoría clara donde Flash aún pierde. A continuación se presenta el panorama completo, una lectura honesta de las compensaciones y dónde desplegar.
Lo que se lanzó, en una tabla
| Detalle | Valor |
|---|---|
| ID del modelo | gemini-3.5-flash |
| Snapshot | 3.5-flash-05-2026 |
| Precio de entrada | $1,50/1M tokens |
| Precio de salida | $9,00/1M tokens |
| Entrada en caché | $0,15/1M tokens |
| Modalidades de entrada | Texto + imagen + audio + video |
| Modalidades de salida | Texto |
| Ventana de contexto | 1.048.576 entrada / 65.536 salida |
| Razonamiento | Pensamiento dinámico activado por defecto |
| Uso de herramientas | Llamada a funciones, salida estructurada, búsqueda como herramienta, ejecución de código |
| Disponibilidad | API de Gemini, AI Studio, Antigravity, Vertex AI, app Gemini, Modo AI en Search |
| Velocidad declarada | ~4× tokens de salida/seg vs peers de frontera |
El detalle de “pensamiento activado por defecto” importa más de lo que la ficha técnica sugiere. No es un parámetro thinking_budget que se establece por solicitud — Flash tiene razonamiento dinámico integrado. El modelo decide cuánto pensar según el prompt. Para código de producción que presupuesta latencia, esta es una forma de despliegue diferente al toggle de extended-thinking de Sonnet 4.6 o al parámetro reasoning de GPT-5.5.
Benchmarks de agentes: Flash vs nivel Pro
Los datos entre proveedores son donde el posicionamiento de Flash se vuelve legible. Tomando de las comparaciones de lanzamiento en el análisis de coding agéntico de Digital Applied y el análisis de lanzamiento de LLM Stats:
| Benchmark | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | Ganador |
|---|---|---|---|---|
| MCP Atlas | 83,6% | 79,1% | 75,3% | Flash (+4,5 / +8,3) |
| Toolathlon | 56,5% | — | — | Flash |
| Finance Agent v2 | 57,9% | — | — | Flash |
| CharXiv Reasoning | 84,2% | — | — | Flash |
| MMMU-Pro | 83,6% | — | — | Flash |
| SWE-Bench Pro | — | 64,3% | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76,2% | — | 78,2% | GPT-5.5 (+2,0) |
| OSWorld-Verified | — | — | 78,7% | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36,2% | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72,1% | — | 84,6% | GPT-5.5 (+12,5) |
Tres lecturas de esto:
En orquestación de agentes, Flash es ahora el predeterminado al que acudir primero. MCP Atlas mide flujos de trabajo multi-paso impulsados por herramientas — el caso de uso que la mayoría de los stacks de agentes empresariales realmente despliegan. Superar a Opus por 4,5 puntos en este benchmark al precio de Flash es un cambio significativo en capacidad por dólar. Toolathlon y Finance Agent v2 refuerzan el patrón: en cualquier lugar donde el trabajo sea agéntico (planear, llamar herramientas, integrar resultados, iterar), Flash lidera.
En coding estilo terminal, GPT-5.5 aún gana por poco. Una brecha de 2 puntos en Terminal-Bench 2.1 no es decisiva — pero combinada con la ventaja de GPT-5.5 en GDPval-AA (113 Elo) y OSWorld-Verified, la lectura es que si tu flujo de trabajo es “darle al modelo una terminal y una tarea,” GPT-5.5 sigue siendo la elección correcta. Flash cierra la brecha; no cierra la ventaja.
En razonamiento abstracto difícil, Flash tiene una debilidad real. ARC-AGI-2 es la señal más clara aquí — Flash cae 12,5 puntos detrás de GPT-5.5. Esto es consistente con lo que notamos ayer sobre la regresión de Flash en Humanity’s Last Exam y recuperación de contexto largo frente al anterior Gemini 3.1 Pro. La arquitectura Flash claramente intercambió profundidad de razonamiento por velocidad y costo. Se supone que la llegada de Gemini 3.5 Pro en junio es la respuesta a ese intercambio.
Precios en contexto
| Modelo | Entrada ($/1M) | Salida ($/1M) | Ratio de salida | Notas |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1,50 | $9,00 | 6,0× | Entrada en caché $0,15 |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 5,0× | Contexto 1M plano |
| Claude Opus 4.7 | $5,00 | $25,00 | 5,0× | Razonamiento Pro-tier |
| GPT-5.5 | $1,25 | $10,00 | 8,0× | Entrada más barata |
| Gemini 3.1 Pro (anterior) | $2,50 | $15,00 | 6,0× | 40% más que Flash |
Flash está por debajo de Sonnet 4.6 en ambos ejes mientras lidera a Opus 4.7 en benchmarks de agentes. Esa es la historia de precios que los desarrolladores necesitan asimilar: el predeterminado de orquestación de agentes acaba de volverse un 50% más barato en entrada y un 40% más barato en salida, con un perfil de benchmark significativamente mejor que el predeterminado anterior en el mismo nivel.
El precio de $0,15/1M para entrada en caché es lo que inclina la matemática decididamente para cualquier flujo de trabajo intensivo en RAG o memoria. Si estás alimentando 500K tokens de contexto en caché por solicitud, el precio de nivel en caché de Flash es aproximadamente el 10% de la tarifa de entrada estándar de Sonnet 4.6. Eso no es un punto porcentual de margen; esa es una clase de costo diferente.
Dónde encaja Flash en producción hoy
Lecturas concretas de despliegue, basadas en los datos de benchmark:
Usa Flash para:
- Agentes MCP / orquestados por herramientas. Aquí es donde Flash genuinamente lidera, y la ventaja de precio es mayor.
- Flujos de trabajo API de alto volumen donde el costo unitario importa más que la inteligencia pico: transformación de datos, clasificación, extracción estructurada, procesamiento por lotes.
- Pipelines multimodales que toman entrada de imagen/audio/video y emiten texto — Flash admite las cuatro modalidades de entrada de forma nativa.
- Flujos de trabajo intensivos en caché (RAG de contexto largo, memoria de conversación, búsqueda de documentos) — el $0,15/1M de entrada en caché es el más barato en el nivel de frontera.
No uses Flash para (aún):
- Razonamiento abstracto difícil — problemas estilo ARC-AGI-2. GPT-5.5 es la elección.
- Recuperación de contexto largo en 128K+ — Flash retrocedió frente al anterior Gemini 3.1 Pro aquí. Espera a 3.5 Pro en junio.
- Agentes de coding terminal puro — GPT-5.5 aún tiene una ventaja de 2 puntos en Terminal-Bench, que se acumula en flujos de trabajo de coding multi-paso.
- Cargas de trabajo donde necesitas controlar el presupuesto de pensamiento por solicitud — Flash tiene el pensamiento integrado, no expuesto como parámetro.
Qué cambió hoy que no era verdad ayer
Tres cosas genuinamente cambiaron con el lanzamiento de Flash:
- El modelo de agentes predeterminado ya no es de nivel Pro. “Usa el mejor modelo que puedas pagar” deja de ser buen consejo para flujos de trabajo de agentes. Para tareas orquestadas por MCP, Flash supera a los modelos Pro de competidores y cuesta menos.
- La familia de texto de Gemini se puso al día en capacidad agéntica. Antes del lanzamiento, el encuadre dominante era “Gemini está rezagado en coding/agentes.” Post-lanzamiento, Flash lidera la mayoría de los conjuntos de agentes y es competitivo en coding. La narrativa necesita actualizarse.
- La brecha de razonamiento se hizo más grande, no más pequeña. La regresión de Flash en ARC-AGI-2 y Humanity’s Last Exam es real. El lanzamiento de Pro en junio es ahora el evento crítico para determinar si Gemini cierra esa brecha específica.
Rutas de despliegue
La forma de despliegue más limpia hoy depende de en qué superficie estés:
- API de producción directamente vía Google:
gemini-3.5-flashvía Vertex AI o AI Studio. Ambos exponen el mismo modelo. - En Antigravity (la superficie de coding estilo IDE de Google): el cambio de modelo predeterminado de
gemini-3.1-proagemini-3.5-flashes el movimiento correcto para la mayoría de los flujos de trabajo. - En un enrutador multi-proveedor: agrega
gemini-3.5-flasha tu política de orquestación de agentes. Para rutas MCP / intensivas en herramientas, enruta a Flash primero; recurre a GPT-5.5 para coding terminal y razonamiento estilo ARC. - En WaveSpeedAI: el endpoint LLM de WaveSpeedAI te da acceso compatible con OpenAI a los modelos de texto de frontera actuales detrás de una sola clave API. A medida que Gemini 3.5 Flash se integre, podrás hacer A/B testing contra el resto de tu lineup de modelos bajo la misma superficie.
Qué observar en junio
Dos cosas que se resuelven en las próximas cuatro semanas:
- Gemini 3.5 Pro se lanza. Esta es la respuesta a si la regresión de Flash en razonamiento y contexto largo se corrige. Si Pro aterriza por encima de 3.1 Pro en Humanity’s Last Exam y iguala a Flash en Terminal-Bench, toda la familia Gemini 3.5 es el nuevo predeterminado. Si Pro solo parchea la regresión a mayor costo, el lineup permanece bifurcado.
- Replicaciones independientes de benchmarks de agentes. Los números de MCP Atlas / Toolathlon / Finance Agent de Google son de primera parte. La pregunta interesante es si los conjuntos de benchmarks de agentes de terceros (LangChain Bench, evaluación de MetaGPT, etc.) reproducen la ventaja. Observa los estudios de replicación en las próximas dos a tres semanas.
Hasta entonces: Flash está disponible, el costo de orquestación de agentes acaba de bajar, y la pregunta en el escritorio de la mayoría de los desarrolladores esta semana es si migrar la ruta de agentes de Opus 4.7 a gemini-3.5-flash hoy, o esperar a 3.5 Pro.
Fuentes: LLM Stats sobre Gemini 3.5 Flash, Comparación de coding agéntico de Digital Applied, Seeking Alpha sobre liderazgo en benchmarks agénticos, Reseña de Gemini 3.5 Flash de DataCamp, Notas de lanzamiento de Vertex AI.
