Benchmark Reproducible: Qwen Image 2512 vs SDXL vs FLUX para Texto en Imagen

Hola a todos, soy Dora. Recientemente he estado ejecutando puntos de referencia de renderizado de texto, comparando Qwen Image 2512, SDXL, y FLUX entre sí. Pasé las últimas tres semanas probando generación de texto en imágenes porque seguía viendo afirmaciones de que “este modelo finalmente resuelve el renderizado de texto.” Las afirmaciones parecían ruidosas. La prueba parecía delgada.

Así que construí un punto de referencia reproducible usando Qwen Image 2512, SDXL, y FLUX—tres modelos que la gente sigue comparando. Quería ver qué sucede realmente cuando les pides que rendericen carteles, menús y diseños mixtos. No ejemplos seleccionados cuidadosamente. No capturas de pantalla de marketing. Solo pruebas consistentes en los mismos avisos.

Por qué importan los puntos de referencia reproducibles

La mayoría de las comparaciones que he visto muestran ejemplos únicos. Un hermoso cartel del Modelo A, un letrero roto del Modelo B. Te dice que algo sucedió una vez—no qué sucede de manera confiable.

Necesitaba comprender las compensaciones. ¿Cuándo SDXL falla? ¿Dónde brilla FLUX? ¿Qué entrega realmente Qwen Image 2512 cuando lo presionas con texto largo o diseños complejos?

Según la documentación del modelo de Hugging Face, Qwen Image 2512 mejora la precisión de renderizado de texto y la calidad del diseño, con más de 10,000 rondas de evaluaciones ciegas mostrándolo como un modelo de código abierto líder. Mientras tanto, las pruebas comunitarias encontraron que FLUX claramente gana en renderizado de texto en comparación con SDXL, generando texto correcto en cada imagen de prueba mientras SDXL falla. Pero esas evaluaciones no respondieron a mi pregunta específica: ¿qué sucede con diseños de carteles versus texto de menú versus gráficos de miniaturas?

Configuración del punto de referencia

Probé los tres modelos usando el mismo hardware—una NVIDIA RTX 4090 con 24GB de VRAM. Cada modelo se ejecutó con su configuración recomendada para evitar discapacidades injustas.

El mismo conjunto de avisos en todos los modelos

Veinte avisos en total, organizados en cuatro categorías. Cada aviso especificaba contenido de texto exacto, requisitos de diseño y estilo visual. Ejecuté cada aviso tres veces por modelo para detectar inconsistencias.

No usé avisos negativos para FLUX porque FLUX usa coincidencia de flujo en lugar de orientación libre de clasificador, lo que significa que no admite acondicionamiento negativo. Para mantener las comparaciones justas, omití avisos negativos para todos los modelos.

Las mismas relaciones de aspecto y parámetros

Cada prueba usó resolución de 1024×1024.

SDXL se ejecutó con 30 pasos y escala CFG de 7
FLUX Dev usó 20 pasos con escala de orientación de 5
Qwen Image 2512 se ejecutó con 28 pasos y escala de orientación de 5, que según las pruebas comunitarias equilibra la calidad y la adhesión al aviso

Los tiempos de generación variaron significativamente. SDXL tomó alrededor de 13 segundos por cuatro imágenes, mientras que FLUX Dev necesitó 57 segundos—aproximadamente cuatro veces más tiempo. Qwen Image 2512 se situó entre ellos en alrededor de 5 segundos por imagen con configuración optimizada.

Conjunto de avisos (código abierto)

Comparto el conjunto de avisos completo porque la reproducibilidad requiere ver las pruebas reales. Estos no son avisos perfectos—son escenarios realistas que realmente encuentro.

Para facilitar comparaciones a nivel de aviso más fáciles de reproducir y extender, también estamos probando los mismos conjuntos de avisos en diferentes entornos de ejecución, incluyendo WaveSpeed, que proporciona una interfaz consistente para ejecutar múltiples modelos de imágenes con parámetros comparables.

Como con todos los resultados aquí, los resultados permanecen sensibles a la redacción del aviso, conteo de pasos y escala de orientación—por lo que los resultados deben interpretarse como direccionales en lugar de absolutos.

Avisos de carteles (5 ejemplos)

“Cartel de evento con título en negrita ‘Summer Festival’ en la parte superior, subtítulo ‘July 15-17’ debajo, tres puntos de viñeta que enumeran actividades, y texto de pie de página ‘Register at summerfest.com’”
“Estilo de cartel de película con texto grande ‘THE LAST HORIZON’ centrado, texto más pequeño ‘Coming Soon’ en la parte inferior”
“Anuncio de taller con encabezado ‘Learn Python in 5 Days’, detalles de fecha y hora, nombre del instructor, información de registro”
“Cartel de concierto con nombre de banda en fuente decorativa, detalles del lugar, precio de entradas”
“Diseño de portada de libro con nombre del autor, título en fuente serif, subtítulo, logo del editor”

Avisos de miniaturas (5 ejemplos)

“Miniatura de YouTube con texto grande ‘TOP 5 TIPS’ y pequeña insignia que dice ‘NEW’”
“Miniatura de producto mostrando texto ‘50% OFF’ de manera prominente con etiqueta más pequeña ‘Limited Time’”
“Miniatura de curso con título ‘Advanced AI’ e indicador de dificultad ‘Expert Level’”
“Miniatura de receta con nombre del plato y insignia ‘Ready in 30 min’”
“Miniatura de noticias con titular y etiqueta ‘BREAKING‘“

Avisos de menú / letrero (5 ejemplos)

“Tablero de menú de cafetería con cinco artículos, precios, y encabezado ‘Daily Specials’”
“Letrero de restaurante mostrando ‘Now Open’ con horario comercial listado abajo”
“Letrero de ventana de tienda con ‘Grand Opening’ e información de fecha”
“Menú de pizarra de cafetería con tres secciones y bordes decorativos”
“Señalización minorista con ‘Clearance Sale’ y descuentos porcentuales”

Avisos de contenido mixto (5 ejemplos)

“Infografía con título, tres pasos numerados y cuadro de resumen”
“Publicación de redes sociales con texto de cita superpuesto en fondo de degradado”
“Diapositiva de presentación con puntos de viñeta y texto de pie de página”
“Diseño de revista con titular, vista previa de texto corporal, y números de página”
“Publicidad con nombre de producto, lista de características, y llamada a la acción”

Rúbrica de evaluación

Califiqué cada resultado en cuatro dimensiones usando una escala de 1–5. No usé automatización de OCR porque quería detectar problemas de diseño que el reconocimiento de caracteres puro no detecta.

Legibilidad de texto (1–5)

¿Puedes leer cada palabra sin entrecerrar los ojos? ¿Se forman correctamente los caracteres? ¿Los caracteres se desdibujan juntos o muestran artefactos?

Puntuación 5: Cada carácter es nítido y legible. Sin errores de ortografía, sin letras fusionadas, sin trazos perdidos.
Puntuación 3: La mayoría del texto es legible pero muestra problemas menores—desenfoque ligero, confusión ocasional de caracteres.
Puntuación 1: El texto es en gran medida ilegible o contiene errores de ortografía importantes.

Precisión de diseño (1–5)

¿Aparece el texto donde especificó el aviso? ¿Se respetan las jerarquías—encabezados más grandes que texto corporal, espaciado apropiado entre elementos?

Qwen Image 2512 me impresionó aquí. Según la documentación de prueba, mejora la calidad de diseño y composición multimodal, lo que reduce el conteo de reintentos para diseños complejos.

Fidelidad visual (1–5)

Más allá de texto legible, ¿se ve coherente la imagen general? ¿Son las fuentes apropiadas para el contexto? ¿Se integra el texto naturalmente con elementos de fondo?

Aquí es donde las diferencias se hicieron obvias. Algunos modelos renderizaban texto perfecto en fondos incoherentes. Otros creaban hermosas imágenes con texto roto.

Estética general (1–5)

¿Realmente usarías este resultado? ¿Se ve terminado o necesita post-procesamiento significativo?

Resumen de resultados

Después de 180 generaciones totales (20 avisos × 3 modelos × 3 intentos), surgieron patrones que me sorprendieron.

Dónde Qwen Image 2512 gana

Diseños de carteles con 50+ caracteres. Cuando pedí carteles de eventos con múltiples bloques de texto, Qwen Image 2512 colocó consistentemente los elementos correctamente. El texto se mantuvo nítido incluso con cadenas más largas.

El modelo enfatiza calidad de renderizado de texto con caracteres más claros, espaciado de línea estable y alineación predecible—especialmente valioso para visuales de marketing y borradores de diseño. Lo noté especialmente con contenido chino-inglés mezclado, aunque mis pruebas se enfocaron en inglés.

La velocidad fue notable. Cinco segundos por imagen significó que podía iterar rápidamente sin perder calidad. Eso importa cuando estás perfeccionando un diseño mediante múltiples intentos.

Dónde SDXL gana

Estilos artísticos e iteración rápida. Cuando los avisos enfatizaban estilo sobre precisión de texto—“estética de cartel retro” o “apariencia de letrero vintage”—SDXL entregó interpretación artística más consistente. El enfoque de arquitectura dual de SDXL con modelos base y refinador le da desempeño artístico fuerte, especialmente para contenido estilizado. La ventaja del ecosistema también importa: más LoRAs, más opciones de ControlNet, más recursos comunitarios.

La velocidad de generación dio a SDXL una ventaja para borradores aproximados. Trece segundos para cuatro imágenes supera esperar un minuto cuando solo estás explorando conceptos.

Dónde FLUX gana

Texto corto con avisos complejos. Para miniaturas y letreros simples, FLUX Dev rara vez cometía errores de ortografía. Las pruebas comunitarias muestran que FLUX sobresale en kerning, espaciado y reproducción de estilo de fuente, produciendo texto nítido que coincide con estándares tipográficos profesionales.

El codificador T5 parece hacer una diferencia. FLUX usa tecnología T5 de los modelos de lenguaje de Google, que mejora la comprensión de avisos complejos y la calidad de renderizado de texto.

Pero FLUX tuvo dificultades con bloques de texto más largos. Después de aproximadamente 30 caracteres, la precisión bajó notablemente. Y las pruebas independientes confirmaron que aunque FLUX muestra mejoras sobre modelos anteriores, los resultados a menudo quedan cortos de los ejemplos impecables en materiales de marketing.

Recomendaciones por caso de uso

Si estás generando carteles con múltiples elementos de texto y necesitas diseño confiable: Qwen Image 2512 manejó esto mejor de lo que esperaba. La generación de 28 pasos proporcionó buena calidad sin tiempos de espera excesivos.

Si estás prototipando diseños y el estilo importa más que el texto perfecto: SDXL te da velocidad más flexibilidad artística. Probablemente arreglarás el texto en post-producción de todas formas.

Si estás creando miniaturas o señalización corta y la precisión del texto es crítica: FLUX Dev entregó el texto de forma corta más limpio. Solo no le pidas que renderice párrafos.

Para flujos de trabajo mixtos, me encontré usando diferentes modelos para diferentes etapas. SDXL para explorar direcciones visuales rápidamente. Qwen Image 2512 cuando la complejidad del diseño aumentaba. FLUX Dev cuando el texto final necesitaba ser perfecto a nivel de píxel para contenido más corto. Lo que más me sorprendió no fue qué modelo ganó en general—porque no existe un ganador único. Fue darme cuenta de que “texto en imagen” no es un problema. Son al menos tres: precisión de caracteres, precisión de diseño e integración estética. Diferentes modelos resuelven diferentes piezas.

Los avisos de punto de referencia están disponibles para cualquiera que quiera verificar estos hallazgos o probar otros modelos. Tengo curiosidad sobre si estos patrones se mantienen en diferentes configuraciones de hardware o estilos de avisos.

¿Has probado renderizado de texto recientemente? ¿Qué modelo te sorprendió más (o te frustró más)? ¡Siéntete libre de compartir tus resultados y avisos en los comentarios!