Límites de velocidad de GPT Image 2 en 2026: Lo que los desarrolladores necesitan saber

Hola a todos. Soy Dora. Una amiga en un equipo de producto de 3 personas lanzó una función de GPT Image 2 a principios de mayo. Lanzamiento suave, ~200 usuarios invitados. En 90 minutos, la función se rompió — no porque el modelo fallara, sino porque estaban en el Nivel 2 y la ráfaga de esos usuarios (cada uno generando un promedio de 3 a 5 imágenes) alcanzó el techo de 20 IPM en su primera tarde.

Eso es lo peculiar de los límites de velocidad de GPT Image 2: no se sienten como una restricción hasta que lo son. Los números de nivel en una tabla de documentación parecen abstractos. Se vuelven concretos en el momento en que la profundidad de tu cola supera lo que el nivel puede drenar por minuto. Este artículo es para equipos que están incorporando GPT Image 2 en un producto real, no para personas que hacen benchmarking de prompts individuales — los límites de velocidad de la API de imágenes de OpenAI se manifiestan de forma diferente en pruebas de carga que en desarrollo.

Aviso: escribo sobre infraestructura de agentes e imágenes para WaveSpeedAI. Cubrí la cuestión de evaluación del modelo en una publicación anterior — si GPT Image 2 encaja en tu flujo de trabajo en absoluto. Esta publicación asume que ya decidiste que sí, y ahora estás averiguando si sobrevive al contacto con tu tráfico.

Cómo lucen los límites de velocidad de GPT Image 2 en 2026

Según la documentación de límites de velocidad de OpenAI y la página del modelo GPT Image 2, el modelo se mide en dos dimensiones: TPM (tokens por minuto, contando tokens de entrada/salida de imagen y texto) e IPM (imágenes por minuto, el techo más duro para la mayoría de los flujos de trabajo).

Estructura de IPM y TPM por nivel

Estos son los límites publicados de GPT Image 2 a partir de abril de 2026. Nivel gratuito: no compatible.

Nivel	TPM	IPM	Gasto aproximado de calificación
Nivel 1	100,000	5	$5 pagados
Nivel 2	250,000	20	$50 pagados + 7 días
Nivel 3	800,000	50	$100 pagados + 7 días
Nivel 4	3,000,000	150	$250 pagados + 14 días
Nivel 5	8,000,000	250	$1,000 pagados + 30 días

Dos cosas a tener en cuenta. Los niveles son a nivel de organización, no por proyecto ni por clave de API — cada proyecto comparte el mismo presupuesto de IPM de GPT Image 2. OpenAI puede revisar estos números sin previo aviso, por lo que la tabla anterior es una línea base de planificación. Confirma en el panel de límites de tu cuenta antes de comprometer decisiones de arquitectura.

Qué significan estos límites en la práctica

Un techo de 5 IPM del Nivel 1 es una imagen cada 12 segundos, sostenida. Eso cubre el desarrollo individual y los prototipos pequeños. No cubre una función pública con concurrencia moderada. Un techo de 250 IPM del Nivel 5 suena alto hasta que haces las matemáticas: 250 imágenes/min × 60 min = 15,000 imágenes/hora. Si tu tweet de lanzamiento genera 5,000 registros en la primera hora y cada usuario genera una imagen, ya estás al 33% de capacidad asumiendo una distribución perfecta — lo cual nunca sucede.

El modo de fallo más complicado es el tráfico en ráfagas. Los documentos de OpenAI señalan que los límites se aplican en ventanas de menos de un minuto. 20 IPM no significa que puedas enviar 20 en el primer segundo y descansar durante 59. Envía 5 en 2 segundos y serás limitado incluso si tu promedio a nivel de minuto está muy por debajo del límite.

Cómo los límites de velocidad afectan la planificación de producción

La evaluación del modelo tomó dos semanas. La infraestructura para mantenerlo funcionando bajo carga real toma otras dos, como mínimo. La mayoría de los equipos subestima esto.

Diseño de cola, procesamiento por lotes y decisiones de reintento

Aquí se apilan tres capas. La mayoría de los equipos solo construyen dos.

Primero: limitación de velocidad del lado del cliente. Limita las solicitudes concurrentes en vuelo a ~80% del IPM de tu nivel, distribuidas a lo largo del minuto. Si estás en el Nivel 3 (50 IPM), son ~40 imágenes concurrentes sostenidas, encoladas detrás de eso.

Segundo: reintento con retroceso exponencial. El cookbook de OpenAI recomienda retroceso exponencial con jitter en los 429. Patrón estándar: espera 1s, 2s, 4s, 8s con jitter aleatorio, detente después de 6 intentos. No negociable. Los reintentos en bucle apretado con 429 harán que tu cuenta sea marcada.

Tercero — el que los equipos omiten — es el control de forma de solicitud. No toda imagen necesita calidad: alta. No todo flujo de trabajo necesita respuesta sincrónica. La API de lotes de OpenAI tiene un grupo de cuota separado y precios al 50%, con SLA de 24 horas. Para la regeneración nocturna de miniaturas, el procesamiento por lotes es la herramienta adecuada. Para las generaciones individuales orientadas al usuario, no lo es. La mayoría de los equipos tienen una mezcla y las enrutan como si fueran lo mismo. La diferencia entre “los límites de velocidad son un problema” y “los límites de velocidad son un telón de fondo” radica en si has enrutado el trabajo asincrónico fuera del grupo de IPM sincrónico.

Expectativas del equipo sobre el tiempo de respuesta y los picos

Esta es la parte que nadie documenta. Es la conversación con producto y operaciones, no con el modelo.

En el Nivel 2 (20 IPM), la latencia p50 está aproximadamente vinculada al modelo — 8 a 25 segundos dependiendo de la calidad y el modo de razonamiento. Pero p99 bajo carga sostenida incluye tiempo de espera en cola. Un usuario que envía la solicitud número 21 en un minuto espera 60 segundos, no 12. “La imagen se genera en 15 segundos” solo es cierto cuando nadie más está generando.

Para campañas de marketing y lanzamientos, la pregunta de planificación no es el rendimiento promedio — es el rendimiento en el minuto pico. Si esperas 3× el tráfico normal durante 4 horas después de que una campaña salga en vivo, tu nivel necesita absorber ese 3× sin romperse, o necesitas pre-generar, o necesitas un respaldo. Elige uno antes del lanzamiento. Elegir durante el lanzamiento nunca sale bien.

Cuándo los límites de velocidad se convierten en un problema de producto

Hay un umbral donde el rendimiento de GPT Image 2 deja de ser una pregunta de infraestructura y se convierte en una pregunta de producto. La señal es consistente: cuando tu cola de reintentos es lo suficientemente profunda como para ser visible para los usuarios, tienes un problema de producto, no de infraestructura.

Señales de que lo has cruzado:

La varianza de latencia orientada al usuario supera tu banda de tolerancia (por ejemplo, el 80% de las solicitudes terminan en 20s, el 5% tarda 90s+ porque estaban en cola detrás de una ráfaga)
Estás reduciendo el alcance de funciones para mantenerte bajo el nivel — “sin generación por lotes en la UI” es una señal
Un solo actor malicioso o un enlace popular puede saturar tu minuto y degradar a todos los demás
Tu solicitud de Nivel 5 está tardando más de 30 días y tu lanzamiento es en 14

La respuesta honesta cuando llegas a esto: un solo proveedor tiene un techo operacional. Incluso el Nivel 5 es un techo. Los equipos que manejan volumen serio comienzan a considerar la pre-generación y el caché, el enrutamiento de modelos a alternativas de menor presión de nivel para rutas no críticas, o la agregación/respaldo a través de una capa que agrupa capacidad entre proveedores. Cada uno añade superficie de ingeniería. Cada uno es más barato que un incidente de latencia público.

Me detuve un momento al escribir esta sección, porque el encuadre de WaveSpeed aquí es fácil de deslizar. Opinión honesta: la agregación es una opción entre varias. La pre-generación y el caché a menudo resuelven más de lo que la gente les da crédito, y cuesta menos. Si necesitas una capa multi-proveedor depende de si tu carga de trabajo genuinamente supera el Nivel 5, o si aún no has optimizado. Diagnostica antes de diseñar la arquitectura.

Qué deben monitorear los desarrolladores antes de escalar

Tres cosas, en este orden.

IPM real en el pico, no el promedio. Registra los encabezados x-ratelimit-remaining-images y x-ratelimit-remaining-tokens en cada respuesta. Observa el mínimo, no la media. Si el restante en el minuto pico cae por debajo del 20% del nivel, estás a un pico de tráfico de los 429s.

Distribución del modo de fallo. Rastrea los 429s como porcentaje del total de solicitudes, desglosado por hora del día. Una tasa de 429 del 0.5% suena bien hasta que descubres que es del 8% durante la ventana del correo electrónico de marketing. Las métricas agrupadas por tiempo detectan esto; las métricas agregadas no.

Tiempo hasta la actualización de nivel. El Nivel 5 requiere $1,000 de gasto más 30 días de antigüedad de cuenta. Si tu proyección alcanza las necesidades del Nivel 5 dentro de 2 meses, comienza a gastar ahora, o acepta que tus primeros 30 días a escala estarán limitados en capacidad.

Aquí es donde terminan mis datos — he operado GPT Image 2 en el Nivel 2 y el Nivel 3, no en el Nivel 5. Los equipos del Nivel 5 informan que la dinámica cambia de nuevo, donde el techo deja de ser el IPM y comienza a ser la eficiencia de la forma de solicitud.

Preguntas frecuentes

¿Cuáles son los límites de velocidad de GPT Image 2 por nivel?

Según la documentación de OpenAI a partir de abril de 2026: el Nivel 1 es 100,000 TPM / 5 IPM, el Nivel 2 es 250,000 / 20, el Nivel 3 es 800,000 / 50, el Nivel 4 es 3,000,000 / 150, el Nivel 5 es 8,000,000 / 250. El nivel gratuito no es compatible. Los límites son a nivel de organización, compartidos entre todos los proyectos. OpenAI puede revisarlos, así que verifica en el panel de tu cuenta.

¿Cómo afectan los límites de velocidad a los flujos de trabajo de imágenes a escala?

Tres cosas: diseño de cola (necesitas limitación del lado del cliente antes de la de OpenAI), distribución de latencia (p99 incluye tiempo de espera en cola, no solo tiempo del modelo), y hoja de ruta (puedes aplazar funciones que producen picos que no puedes absorber). El patrón común: los equipos construyen para la carga promedio, luego descubren que la carga pico determina la experiencia del usuario.

¿Qué deben hacer los equipos antes de lanzar una función de alto volumen?

Cuatro pasos. Estima el volumen de generación en el minuto pico, no el promedio diario. Verifica que tu nivel lo cubra con ~30% de margen. Implementa retroceso exponencial con jitter y un disyuntor. Decide un respaldo para el caso de que agotes la capacidad — pre-generación, modelo alternativo o degradación elegante. El modo de fallo del día del lanzamiento que no puedes solucionar es el que no planificaste.

¿Cuándo un solo proveedor no es suficiente operacionalmente?

Cuando la demanda en el minuto pico excede consistentemente la capacidad del Nivel 5 de un solo proveedor, cuando tu SLA no puede tolerar la ventana de interrupción de un solo proveedor, o cuando la varianza de latencia por tiempo de espera en cola sigue siendo visible para los usuarios a pesar de la optimización. La mayoría de los equipos no llegan a esto. Los equipos que lo hacen — generalmente productos de consumo con patrones virales o pipelines empresariales con SLAs estrictos — añaden pre-generación, enrutamiento multi-proveedor, o ambos. La decisión debe provenir de tus registros de carga pico, no de la página de marketing de un proveedor.

Conclusión

El resumen rápido de los límites de velocidad de GPT Image 2: el Nivel 1 comienza en 5 IPM, el Nivel 5 tiene un tope de 250 IPM, y el tráfico en ráfagas alcanza estos techos mucho más rápido de lo que sugieren las matemáticas de estado estable. El resumen más lento: los límites de velocidad son una restricción de diseño operacional, no una nota al pie de la documentación. Dan forma a tu cola, tu SLA, el alcance de tus funciones y tu plan de lanzamiento.

La pregunta correcta para los desarrolladores no es “¿en qué nivel estoy?” — es “¿cómo se ve mi minuto pico, y mi nivel lo absorbe con margen?”. La mayoría de los equipos descubren la respuesta de la manera equivocada, después de que el lanzamiento está en vivo.

Habrá más una vez que haya operado GPT Image 2 en el Nivel 5. Los números anteriores son de OpenAI, el encuadre es mío, y las políticas de capacidad se actualizan más rápido que las publicaciones de blog.

Publicaciones anteriores:

Cómo lucen los límites de velocidad de GPT Image 2 en 2026

Estructura de IPM y TPM por nivel

Qué significan estos límites en la práctica

Cómo los límites de velocidad afectan la planificación de producción

Diseño de cola, procesamiento por lotes y decisiones de reintento

Expectativas del equipo sobre el tiempo de respuesta y los picos

Cuándo los límites de velocidad se convierten en un problema de producto

Qué deben monitorear los desarrolladores antes de escalar

Preguntas frecuentes

¿Cuáles son los límites de velocidad de GPT Image 2 por nivel?

¿Cómo afectan los límites de velocidad a los flujos de trabajo de imágenes a escala?

¿Qué deben hacer los equipos antes de lanzar una función de alto volumen?

¿Cuándo un solo proveedor no es suficiente operacionalmente?

Conclusión

Artículos relacionados

GPT-5.6 Apareció en los Registros de Codex de OpenAI — Esto Es Lo Que Realmente Significa

¿Qué Es RTK y Por Qué Importa la Eficiencia de Tokens?

CubeSandbox vs E2B para Agentes en Producción

Los Demos de Gemini Omni Acaban de Filtrarse — Esto Es Lo Que Realmente Hace el Nuevo Modelo de Video de Google

GPT Image 2 vs GPT Image 1.5 para Equipos de Producción

Lo Que Sabemos Sobre oai-2.1 Hasta Ahora