Gemini 3.5 Flash ya disponible — un modelo de nivel Flash lidera los benchmarks del nivel Pro en agentes

Gemini 3.5 Flash llegó a disponibilidad general en I/O 2026 con razonamiento activado por defecto, $1,50/$9 por millón de tokens, y un perfil de rendimiento que supera a Claude Opus 4.7 y GPT-5.5 en MCP Atlas y la mayoría de suites de agentes. Aquí se muestra dónde Flash lidera, dónde pierde y cómo desplegarlo.

By WaveSpeedAI 9 min read

Google lanzó Gemini 3.5 Flash con disponibilidad general el 19 de mayo de 2026, el mismo día que lo anunció en I/O — en la API de Gemini, AI Studio, Antigravity, Vertex AI, la aplicación Gemini y el Modo AI en Search. El ID del modelo es gemini-3.5-flash (sin sufijo de vista previa), el snapshot de mayo de 2026 es 3.5-flash-05-2026, y el precio es $1,50 entrada / $9,00 salida por 1M de tokens con $0,15/1M para entrada en caché.

El número titular está en el lado de los benchmarks: un modelo de nivel Flash ahora supera a los modelos de nivel Pro en la mayoría de los conjuntos de agentes. Claude Opus 4.7 y GPT-5.5 — ambos de clase Pro, ambos considerablemente más caros — quedan detrás de Flash en MCP Atlas, Toolathlon y Finance Agent v2. El coding es más mixto, y hay una categoría clara donde Flash aún pierde. A continuación se presenta el panorama completo, una lectura honesta de las compensaciones y dónde desplegar.

Lo que se lanzó, en una tabla

DetalleValor
ID del modelogemini-3.5-flash
Snapshot3.5-flash-05-2026
Precio de entrada$1,50/1M tokens
Precio de salida$9,00/1M tokens
Entrada en caché$0,15/1M tokens
Modalidades de entradaTexto + imagen + audio + video
Modalidades de salidaTexto
Ventana de contexto1.048.576 entrada / 65.536 salida
RazonamientoPensamiento dinámico activado por defecto
Uso de herramientasLlamada a funciones, salida estructurada, búsqueda como herramienta, ejecución de código
DisponibilidadAPI de Gemini, AI Studio, Antigravity, Vertex AI, app Gemini, Modo AI en Search
Velocidad declarada~4× tokens de salida/seg vs peers de frontera

El detalle de “pensamiento activado por defecto” importa más de lo que la ficha técnica sugiere. No es un parámetro thinking_budget que se establece por solicitud — Flash tiene razonamiento dinámico integrado. El modelo decide cuánto pensar según el prompt. Para código de producción que presupuesta latencia, esta es una forma de despliegue diferente al toggle de extended-thinking de Sonnet 4.6 o al parámetro reasoning de GPT-5.5.

Benchmarks de agentes: Flash vs nivel Pro

Los datos entre proveedores son donde el posicionamiento de Flash se vuelve legible. Tomando de las comparaciones de lanzamiento en el análisis de coding agéntico de Digital Applied y el análisis de lanzamiento de LLM Stats:

BenchmarkGemini 3.5 FlashClaude Opus 4.7GPT-5.5Ganador
MCP Atlas83,6%79,1%75,3%Flash (+4,5 / +8,3)
Toolathlon56,5%Flash
Finance Agent v257,9%Flash
CharXiv Reasoning84,2%Flash
MMMU-Pro83,6%Flash
SWE-Bench Pro64,3%Opus 4.7
Terminal-Bench 2.176,2%78,2%GPT-5.5 (+2,0)
OSWorld-Verified78,7%GPT-5.5
Blueprint-Bench 236,2%GPT-5.5
GDPval-AA1656 Elo1769 EloGPT-5.5 (+113)
ARC-AGI-272,1%84,6%GPT-5.5 (+12,5)

Tres lecturas de esto:

En orquestación de agentes, Flash es ahora el predeterminado al que acudir primero. MCP Atlas mide flujos de trabajo multi-paso impulsados por herramientas — el caso de uso que la mayoría de los stacks de agentes empresariales realmente despliegan. Superar a Opus por 4,5 puntos en este benchmark al precio de Flash es un cambio significativo en capacidad por dólar. Toolathlon y Finance Agent v2 refuerzan el patrón: en cualquier lugar donde el trabajo sea agéntico (planear, llamar herramientas, integrar resultados, iterar), Flash lidera.

En coding estilo terminal, GPT-5.5 aún gana por poco. Una brecha de 2 puntos en Terminal-Bench 2.1 no es decisiva — pero combinada con la ventaja de GPT-5.5 en GDPval-AA (113 Elo) y OSWorld-Verified, la lectura es que si tu flujo de trabajo es “darle al modelo una terminal y una tarea,” GPT-5.5 sigue siendo la elección correcta. Flash cierra la brecha; no cierra la ventaja.

En razonamiento abstracto difícil, Flash tiene una debilidad real. ARC-AGI-2 es la señal más clara aquí — Flash cae 12,5 puntos detrás de GPT-5.5. Esto es consistente con lo que notamos ayer sobre la regresión de Flash en Humanity’s Last Exam y recuperación de contexto largo frente al anterior Gemini 3.1 Pro. La arquitectura Flash claramente intercambió profundidad de razonamiento por velocidad y costo. Se supone que la llegada de Gemini 3.5 Pro en junio es la respuesta a ese intercambio.

Precios en contexto

ModeloEntrada ($/1M)Salida ($/1M)Ratio de salidaNotas
Gemini 3.5 Flash$1,50$9,006,0×Entrada en caché $0,15
Claude Sonnet 4.6$3,00$15,005,0×Contexto 1M plano
Claude Opus 4.7$5,00$25,005,0×Razonamiento Pro-tier
GPT-5.5$1,25$10,008,0×Entrada más barata
Gemini 3.1 Pro (anterior)$2,50$15,006,0×40% más que Flash

Flash está por debajo de Sonnet 4.6 en ambos ejes mientras lidera a Opus 4.7 en benchmarks de agentes. Esa es la historia de precios que los desarrolladores necesitan asimilar: el predeterminado de orquestación de agentes acaba de volverse un 50% más barato en entrada y un 40% más barato en salida, con un perfil de benchmark significativamente mejor que el predeterminado anterior en el mismo nivel.

El precio de $0,15/1M para entrada en caché es lo que inclina la matemática decididamente para cualquier flujo de trabajo intensivo en RAG o memoria. Si estás alimentando 500K tokens de contexto en caché por solicitud, el precio de nivel en caché de Flash es aproximadamente el 10% de la tarifa de entrada estándar de Sonnet 4.6. Eso no es un punto porcentual de margen; esa es una clase de costo diferente.

Dónde encaja Flash en producción hoy

Lecturas concretas de despliegue, basadas en los datos de benchmark:

Usa Flash para:

  • Agentes MCP / orquestados por herramientas. Aquí es donde Flash genuinamente lidera, y la ventaja de precio es mayor.
  • Flujos de trabajo API de alto volumen donde el costo unitario importa más que la inteligencia pico: transformación de datos, clasificación, extracción estructurada, procesamiento por lotes.
  • Pipelines multimodales que toman entrada de imagen/audio/video y emiten texto — Flash admite las cuatro modalidades de entrada de forma nativa.
  • Flujos de trabajo intensivos en caché (RAG de contexto largo, memoria de conversación, búsqueda de documentos) — el $0,15/1M de entrada en caché es el más barato en el nivel de frontera.

No uses Flash para (aún):

  • Razonamiento abstracto difícil — problemas estilo ARC-AGI-2. GPT-5.5 es la elección.
  • Recuperación de contexto largo en 128K+ — Flash retrocedió frente al anterior Gemini 3.1 Pro aquí. Espera a 3.5 Pro en junio.
  • Agentes de coding terminal puro — GPT-5.5 aún tiene una ventaja de 2 puntos en Terminal-Bench, que se acumula en flujos de trabajo de coding multi-paso.
  • Cargas de trabajo donde necesitas controlar el presupuesto de pensamiento por solicitud — Flash tiene el pensamiento integrado, no expuesto como parámetro.

Qué cambió hoy que no era verdad ayer

Tres cosas genuinamente cambiaron con el lanzamiento de Flash:

  1. El modelo de agentes predeterminado ya no es de nivel Pro. “Usa el mejor modelo que puedas pagar” deja de ser buen consejo para flujos de trabajo de agentes. Para tareas orquestadas por MCP, Flash supera a los modelos Pro de competidores y cuesta menos.
  2. La familia de texto de Gemini se puso al día en capacidad agéntica. Antes del lanzamiento, el encuadre dominante era “Gemini está rezagado en coding/agentes.” Post-lanzamiento, Flash lidera la mayoría de los conjuntos de agentes y es competitivo en coding. La narrativa necesita actualizarse.
  3. La brecha de razonamiento se hizo más grande, no más pequeña. La regresión de Flash en ARC-AGI-2 y Humanity’s Last Exam es real. El lanzamiento de Pro en junio es ahora el evento crítico para determinar si Gemini cierra esa brecha específica.

Rutas de despliegue

La forma de despliegue más limpia hoy depende de en qué superficie estés:

  • API de producción directamente vía Google: gemini-3.5-flash vía Vertex AI o AI Studio. Ambos exponen el mismo modelo.
  • En Antigravity (la superficie de coding estilo IDE de Google): el cambio de modelo predeterminado de gemini-3.1-pro a gemini-3.5-flash es el movimiento correcto para la mayoría de los flujos de trabajo.
  • En un enrutador multi-proveedor: agrega gemini-3.5-flash a tu política de orquestación de agentes. Para rutas MCP / intensivas en herramientas, enruta a Flash primero; recurre a GPT-5.5 para coding terminal y razonamiento estilo ARC.
  • En WaveSpeedAI: el endpoint LLM de WaveSpeedAI te da acceso compatible con OpenAI a los modelos de texto de frontera actuales detrás de una sola clave API. A medida que Gemini 3.5 Flash se integre, podrás hacer A/B testing contra el resto de tu lineup de modelos bajo la misma superficie.

Qué observar en junio

Dos cosas que se resuelven en las próximas cuatro semanas:

  1. Gemini 3.5 Pro se lanza. Esta es la respuesta a si la regresión de Flash en razonamiento y contexto largo se corrige. Si Pro aterriza por encima de 3.1 Pro en Humanity’s Last Exam y iguala a Flash en Terminal-Bench, toda la familia Gemini 3.5 es el nuevo predeterminado. Si Pro solo parchea la regresión a mayor costo, el lineup permanece bifurcado.
  2. Replicaciones independientes de benchmarks de agentes. Los números de MCP Atlas / Toolathlon / Finance Agent de Google son de primera parte. La pregunta interesante es si los conjuntos de benchmarks de agentes de terceros (LangChain Bench, evaluación de MetaGPT, etc.) reproducen la ventaja. Observa los estudios de replicación en las próximas dos a tres semanas.

Hasta entonces: Flash está disponible, el costo de orquestación de agentes acaba de bajar, y la pregunta en el escritorio de la mayoría de los desarrolladores esta semana es si migrar la ruta de agentes de Opus 4.7 a gemini-3.5-flash hoy, o esperar a 3.5 Pro.

Fuentes: LLM Stats sobre Gemini 3.5 Flash, Comparación de coding agéntico de Digital Applied, Seeking Alpha sobre liderazgo en benchmarks agénticos, Reseña de Gemini 3.5 Flash de DataCamp, Notas de lanzamiento de Vertex AI.