API de MAI-Image-2.5: Lo que los desarrolladores deben saber

Oye, chicos. Microsoft ahora tiene un modelo de imagen insignia que ocupa el puesto No. 2 en el tablero de edición de imágenes de Arena y el No. 3 en texto a imagen. Eso solo no te dice si MAI-Image-2.5 pertenece a tu pipeline. Este artículo es lo que yo querría leer antes de decidir — qué es exactamente, cómo acceder a él, dónde encaja, y dónde no.

Aún no llevo dos semanas usándolo. La mayor parte de lo que hay aquí es la realidad de la capa de acceso y el panorama de benchmarks públicos. Los juicios sobre flujo de trabajo están marcados como tales.

Qué es MAI-Image-2.5

El último modelo de generación y edición de imágenes de Microsoft

MAI-Image-2.5 es el tope actual de la línea de imágenes de primera parte de Microsoft AI, lanzado el 2 de junio de 2026 junto con una variante Flash más rápida. Realiza generación de texto a imagen y edición de imagen a imagen en el mismo modelo. La documentación de Microsoft Foundry lo describe como un sistema basado en difusión optimizado para “ediciones quirúrgicas con consistencia” — ediciones de objetos específicos, adaptación de diseño, actualizaciones de texto, limpieza de artefactos como eliminación de desenfoque de movimiento — con consistencia visual preservada a través de las iteraciones.

Dos cosas importan aquí para los desarrolladores.

Una: esto no es una vista previa de investigación oculta detrás de una lista de espera. El modelo ya está dentro de las superficies de productos de Microsoft — PowerPoint para generación de imágenes, OneDrive para edición precisa — lo cual es una señal de que Microsoft lo trata como infraestructura de producción, no como una demo. Los clientes empresariales mencionados en el escaparate MAI-Image de Microsoft AI incluyen WPP (se cita al Director Creativo Global Rob Reilly) y Shutterstock (la PM Principal Vanessa Salvo evaluó la línea de modelos).

Dos: es el último en un cadencia de lanzamiento de rápido movimiento. MAI-Image-1 se lanzó el 13 de octubre de 2025. MAI-Image-2 y MAI-Image-2-Efficient siguieron en Foundry en la primavera de 2026. El lanzamiento 2.5 llegó aproximadamente ocho meses después de Image-1. Cualquier decisión que tomes hoy tiene una vida útil más corta de lo habitual.

MAI-Image-2.5 vs MAI-Image-2.5-Flash

Microsoft lanzó dos variantes. Comparten la misma familia pero resuelven problemas diferentes.

Variante	Optimizada para	Precio de lista en Foundry (entrada)	Precio de lista en Foundry (salida de imagen)
MAI-Image-2.5	Máxima fidelidad	$5 / 1M tokens de texto, $8 / 1M tokens de imagen	$47 / 1M tokens de imagen
MAI-Image-2.5-Flash	Velocidad y costo a escala	$1.75 / 1M tokens (entrada de texto e imagen)	$19.50–$33 / 1M tokens de imagen según la fuente

Según el anuncio de precios de Microsoft Foundry, el nivel estándar es $5/M tokens de entrada de texto, $8/M de entrada de imagen, y $47/M de salida de imagen. Flash baja a $1.75/M para entrada de texto e imagen, y $33/M para salida de imagen. El precio de entrada es aproximadamente un tercio del nivel estándar; la salida de imagen — generalmente la línea de costo dominante — representa alrededor del 70% del estándar. El enfoque de Microsoft: usa Flash para pipelines de producción de alto volumen, usa el modelo base cuando necesitas lo mejor que produce la familia.

Para la mayoría del trabajo de imagen en producción, Flash es la opción predeterminada y el modelo base es la ruta de escalada cuando la salida de Flash no es suficientemente buena. Verifica los precios en la página en vivo de Foundry antes de construir algo alrededor de esto — Microsoft ha estado ajustándolos.

Rutas de acceso confirmadas para desarrolladores

Azure AI Foundry y MAI Playground

La API de MAI-Image-2.5 se distribuye a través de Microsoft Foundry — el mismo catálogo donde despliegas MAI-Image-2, GPT-Image-1.5, y el resto de los modelos de imagen de socios y de primera parte. Aprovisionas un despliegue desde el Catálogo de Modelos de Foundry, obtienes un endpoint de Azure, te autenticas con un token de Entra ID o clave API, y llamas a la superficie de API estándar de edición de imágenes MAI. Los precios de reserva PTU están disponibles para equipos con cargas de trabajo predecibles.

Si estás probando antes de integrar, MAI Playground te da la superficie sin código. Construye el prompt ahí, luego muévete a la API.

OpenRouter y acceso a través de capa de agregación

No tienes que ir directamente a través de Azure. MAI-Image-2.5 en OpenRouter expone el mismo modelo con la capa de facturación y enrutamiento unificada de OpenRouter delante. Microsoft confirmó el lanzamiento en OpenRouter en el mismo anuncio, con OpenRouter señalando que “9 millones de desarrolladores” pueden ahora acceder a MAI-Image-2.5 a través de la misma API que ya usan para otros modelos. Foundry sigue siendo la fuente — OpenRouter reenvía cada solicitud a Microsoft, sin decisiones de enrutamiento que tomar para ese modelo específico.

Vale la pena señalar esto porque la agregación importa más de lo que solía. Si ya estás ejecutando GPT-Image-2, Nano Banana 2, o Grok Imagine a través de una capa de integración, agregar el modelo de Microsoft no significa escribir un nuevo cliente. Significa cambiar un string de modelo.

Despliegue en productos PowerPoint y OneDrive

Microsoft ya ha integrado este modelo en PowerPoint (generación) y OneDrive (edición precisa). La mayoría de los usuarios finales lo encontrarán sin conocer el nombre. Para los desarrolladores, esto importa de dos maneras: es una pista sobre el nivel de confiabilidad al que Microsoft se está comprometiendo internamente, y es una señal competitiva — Microsoft está usando su propio modelo de imagen en sus propios productos en lugar de enrutar todo a OpenAI. Esa dirección probablemente es permanente.

Rankings de Arena: edición vs texto a imagen

No. 2 en Arena Image Edit

Este es el resultado principal. En el tablero de edición de imágenes, MAI-Image-2.5 aterriza en el No. 2, por delante de Nano Banana 2.1. Según la nota de transparencia de Microsoft, la ventana de evaluación fue de juicio ciego de preferencia humana en el tablero de clasificación de LMArena entre el 31 de mayo y el 1 de junio de 2026, y Microsoft reporta victorias en la mayoría de las 12 categorías de edición — incluyendo limpieza, fondos, sombras y texto — entre categorías con ≥100 partidas juzgadas. Ese es el detalle metodológico que los rankings de Arena normalmente no revelan, y vale la pena conocer la cohorte si estás apostando por el ranking.

No. 3 en texto a imagen

En texto a imagen, se sitúa en el No. 3 con una mejora de +74.5 ELO sobre MAI-Image-2 promediada entre categorías, y una notable ganancia de +104 ELO específicamente en renderizado de texto, según la página de Microsoft Foundry Labs. Los dos primeros en ese tablero son GPT-Image-2 y Nano Banana 2 — la brecha principal con GPT-Image-2 ha sido descrita en la cobertura como la más grande que Arena ha registrado, aunque los deltas exactos de ELO cambian diariamente y deben re-verificarse contra el tablero en vivo antes de citarlos.

El error que evitaría: colapsar esto en “MAI-Image-2.5 es el modelo de imagen No. 2”. No lo es. No. 2 en ediciones, No. 3 en texto a imagen. Tableros diferentes, señales diferentes.

Por qué Arena no reemplaza las evaluaciones específicas de flujo de trabajo

Arena es votación pairwise ciega. Es la señal más honesta que tenemos sobre la preferencia general de los usuarios, y rastrear qué modelos entraron en qué tableros y cuándo es útil para contexto. Pero no te dice si el modelo mantiene la identidad en tus fotos de producto específicas, tus fuentes de marca específicas, tu catálogo específico de ediciones. El post de lanzamiento de Microsoft es explícito sobre este riesgo: “Como todos los modelos de imagen, MAI-Image-2.5 puede reflejar sesgos en sus datos de entrenamiento y puede producir detalles visuales plausibles pero inexactos o engañosos.”

Lo que Arena te dice: está en el nivel superior. Lo que no te dice: si es el modelo de nivel superior adecuado para tu carga de trabajo.

Casos de uso de edición de imágenes en producción

Limpieza de imágenes de producto y reemplazo de fondos

La API imagen a imagen soporta eliminación de objetos, reemplazo, cambios de atributos, inpainting y limpieza de artefactos (el desenfoque de movimiento se menciona específicamente) mientras preserva la composición. Para el comercio electrónico — sacar un reloj de un fondo, ponerlo en otro, eliminar reflejos, cambiar el color de la correa — esta es la superficie que importa. Microsoft es explícito en que el modelo fue ajustado para “la forma en que el trabajo creativo realmente se hace”, lo que interpreto como: ediciones, no solo generaciones. El testimonio de WPP en la página oficial de MAI-Image refuerza esto — la imágenes listas para campañas es el enfoque.

Ediciones locales, reemplazo de texto y razonamiento visual

La edición de imágenes con IA se deteriora más rápido en el texto que en cualquier otra cosa. Carteles, empaques, señalización, capturas de pantalla de interfaz — todo esto vive o muere en si el modelo puede renderizar y re-renderizar texto sin deformarse. El posicionamiento de Microsoft destaca específicamente el renderizado de texto, y la ganancia de +104 ELO en renderizado de texto es la afirmación cuantitativa más sólida en el material de lanzamiento.

Aún no he sometido esto a pruebas de estrés en señalización multilingüe a escala de producción. Eso está en la lista. Las afirmaciones sobre renderizado de texto siempre necesitan verificación por idioma — los conjuntos de caracteres latinos y el CJK se comportan de manera muy diferente.

Flujos de trabajo de retratos y consistencia de identidad

La superficie de retratos es donde el desplazamiento de identidad duele más. Microsoft documenta el modelo como preservando “rostros reconocibles, más cabello, ropa, identidad de cuerpo completo a través de cambios de estilo, pose y diseño” — la preocupación del flujo de trabajo es: generar un retrato, editar la pose, mantener a la misma persona. Si has estado enrutando esto a través de modelos que se desplazan en la segunda edición, vale la pena una comparación real. La capacidad de “consistencia de identidad y personaje” está posicionada para personajes de marca, portavoces y campañas en redes sociales.

Acceso directo a Foundry vs capa de agregación

Cuándo tiene sentido el acceso directo a Microsoft

Ya estás en Azure. Tu equipo tiene Entra ID, tu facturación fluye a través de Microsoft, tu postura de cumplimiento está construida alrededor de eso. Quieres precios de reserva PTU. Estás ejecutando un modelo, o estás ejecutando un stack centrado en Microsoft. Ir directamente a través de Foundry es la ruta de menor fricción. La estructura completa de precios para ambas variantes y las superficies de despliegue está en el anuncio de Foundry de Microsoft.

Cuándo importa el enrutamiento de modelos entre GPT-Image, Nano Banana, Grok Imagine y MAI

Esta es la parte a la que sigo volviendo. El campo de generación de imágenes tiene cuatro contendientes serios en la cima ahora mismo — GPT-Image-2, Nano Banana 2 / 2.1, Grok Imagine y MAI-Image-2.5 — cada uno con diferentes fortalezas, diferentes curvas de precios y diferente comportamiento de edición en el mismo prompt. Si tu producto necesita el modelo más adecuado por tarea, construir cuatro integraciones separadas es ingeniería desperdiciada.

Aquí es donde el patrón de “una API, múltiples modelos” gana su valor. Usa MAI para ediciones quirúrgicas, GPT-Image-2 para renderizado denso de texto, Nano Banana 2 para salida de alta resolución, y enruta en consecuencia. Las plataformas de agregación resuelven el mismo problema desde diferentes ángulos. Elige la que cuya latencia y cobertura coincidan con tu flujo de trabajo.

Eso es todo lo que puedo confirmar en el lado de la capa de acceso. Los juicios específicos del flujo de trabajo — qué modelo realmente gana en tus tomas — son la parte que tienes que ejecutar tú mismo.

Preguntas frecuentes

¿Cómo suelen los desarrolladores probar MAI-Image-2.5 en sus propios flujos de trabajo de edición de imágenes? La ruta más económica es el MAI Playground para iteración de prompts, luego moverse a la API de edición de imágenes de Foundry con Flash para pruebas en lote. Mantén 20–30 entradas representativas de tu conjunto de producción real — no demos curadas — y ejecútalas tanto en Flash como en el modelo base. El delta en tu carga de trabajo real es más informativo que cualquier tablero de Arena.

¿Cuál es la diferencia práctica entre usar MAI-Image-2.5 directamente y hacerlo a través de una capa de agregación? Foundry directo te da la relación de facturación más limpia con Microsoft, precios de reserva PTU y autenticación con Entra ID. Las capas de agregación te dan enrutamiento entre proveedores — cambiar entre MAI, GPT-Image-2, Nano Banana 2 y Grok Imagine sin reconstruir la integración. Si solo ejecutas un modelo de imagen, ve directo. Si comparas o cambias, la agregación se paga sola.

¿Cuándo elegirían los equipos MAI-Image-2.5 sobre otros modelos de imagen que ya están usando? Tres situaciones que señalaría: cargas de trabajo de edición quirúrgica donde la identidad y la composición necesitan mantenerse a través de las iteraciones (el ranking No. 2 de edición en Arena es la señal más sólida aquí); stacks nativos de Azure donde la facturación de Foundry y la autenticación con Entra ID reducen la sobrecarga de integración; e imágenes comerciales — empaques, señalización, visuales orientados a la marca — para las que Microsoft ajustó explícitamente, con WPP y Shutterstock nombrados como evaluadores.

¿Qué deben tener en cuenta los equipos al mover cargas de trabajo de generación de imágenes a MAI-Image-2.5? Tres cosas. Estado de vista previa — ambas variantes todavía están etiquetadas como Vista Previa en Foundry, por lo que los SLA y la paridad de funciones cambiarán. Fluidez de precios — la línea de imagen MAI ha tenido múltiples actualizaciones de precios en los últimos meses; construye estimaciones de costos con margen. Ciclo de vida del modelo — al ritmo al que Microsoft está lanzando (Image-1 a 2.5 en aproximadamente ocho meses), no codifiques nada que no puedas intercambiar.

Ese es el panorama de acceso. Ejecútalo tú mismo con entradas reales. Eso te dirá más que cualquier cosa que yo diga.

Publicaciones anteriores: