HiDream-O1-Image-Dev: El modelo pixel-nativo de 8B que superó al FLUX.2 de 56B
HiDream-O1-Image-Dev es un modelo de imagen destilado de 8B que elimina el VAE y el codificador de texto externo, genera imágenes en 2K de forma nativa y supera a modelos 7 veces su tamaño en GenEval, DPG y HPSv3.
El 8 de mayo de 2026, HiDream-ai publicó HiDream-O1-Image como código abierto bajo la licencia MIT — y la elección de arquitectura es el titular. Mientras que casi todos los modelos recientes de texto a imagen son transformadores de difusión latente (DiT operando sobre tokens comprimidos por VAE, con texto enrutado a través de un T5 o CLIP congelado), HiDream-O1 elimina completamente la pila latente. Ejecuta el transformador de difusión sobre píxeles en bruto, con texto y condiciones de tarea compartiendo el mismo espacio de tokens.
Se publicaron dos checkpoints: el completo HiDream-O1-Image (50 pasos, CFG 5.0) y el destilado HiDream-O1-Image-Dev (28 pasos, CFG 0.0). Ambos tienen 8B de parámetros. Al 5 de mayo de 2026, el modelo — con nombre en clave Peanut — ocupa el puesto #8 en la Artificial Analysis Text-to-Image Arena, siendo la entrada de mayor rango con pesos abiertos en el tablero.
Este artículo examina qué tiene de diferente la arquitectura, qué sacrifica la destilación Dev frente al modelo completo, y cómo los benchmarks reportados se comparan con FLUX.2, Qwen-Image y SD 3.5 Large.
El Transformador Unificado a Nivel de Píxel
Los modelos de imagen abiertos modernos comparten casi universalmente una misma receta:
- Un VAE comprime 1024×1024 RGB en ~64×64 tokens latentes.
- Un codificador de texto (T5-XXL, CLIP, Gemma) incrusta el prompt en un espacio vectorial separado.
- Un DiT elimina el ruido de los tokens latentes, con atención cruzada hacia la incrustación de texto.
Esto es eficiente — la difusión ocurre a 1/64 de la resolución espacial — pero apila tres componentes entrenados de forma independiente, cada uno con sus propios modos de fallo. Los VAEs latentes pierden detalles finos y sangran colores en los límites de compresión. Los codificadores de texto entrenados para recuperación no necesariamente codifican el razonamiento espacial que necesita un generador. La atención cruzada entre dos espacios de incrustación extraños es donde el renderizado de texto y la precisión de objetos pequeños típicamente se rompen.
HiDream-O1 colapsa la pila. El Transformador Unificado a nivel de Píxel (UiT) trata los parches de píxeles, los tokens de texto y los tokens de condición de tarea como miembros de una secuencia compartida. No hay VAE — el modelo opera sobre parches RGB en bruto. No hay codificador de texto separado — los tokens de texto fluyen hacia el mismo transformador. La difusión ocurre directamente en el espacio de píxeles.
El costo es evidente (más cómputo por token, ya que no se puede reducir la muestra 64×) y la respuesta del equipo es dispersión y programación — el informe técnico publicado describe un programador flash con pasos de tiempo predefinidos que permite al variante Dev converger en 28 pasos con escala de guía 0. El beneficio, si la arquitectura funciona, es que cada modalidad vive en una representación, que es exactamente lo que se desea cuando el mismo modelo necesita hacer texto a imagen, edición dirigida por instrucciones, personalización multi-referencia y generación de storyboard sin cambios de cabezal.
Qué hace realmente HiDream-O1-Image-Dev
El checkpoint Dev está destilado por guía — está entrenado para producir salidas condicionadas por CFG en un solo paso hacia adelante, por lo que se establece guidance_scale=0.0 y se omite el cómputo duplicado que normalmente requiere la guía libre de clasificador. Eso por sí solo reduce aproximadamente a la mitad el tiempo de pared en cualquier número de pasos.
El número de pasos baja de 50 → 28 respecto al modelo completo. Combinado con los ahorros de CFG, Dev es significativamente más rápido — el propio encuadre del equipo es “equilibrio entre calidad y demanda computacional”, lo que coincide con el posicionamiento del variante I1 Dev un año antes.
Capacidades soportadas por el mismo checkpoint:
- Texto a imagen hasta resolución nativa de 2048×2048 (sin escalador en el pipeline)
- Edición basada en instrucciones (
--ref_images input.jpg --prompt "remove the earphones") - Personalización impulsada por sujeto — preservación de identidad multi-referencia, toma 2+ imágenes de referencia del mismo sujeto y los coloca en nuevos contextos
- Renderizado de texto largo — multilingüe, con puntuaciones reportadas de paridad cercana en LongText-Bench en inglés y mandarín
- Generación de storyboard — fotogramas secuenciales con personajes/escenario consistentes
Las cuatro tareas comparten pesos. No hay intercambio de LoRA ni carga de adaptador entre texto a imagen y edición — solo se pasa --ref_images para cambiar de modo.
Benchmarks: dónde se sostiene realmente la afirmación de 8B
El informe técnico compara con los pares de pesos abiertos obvios (FLUX.2, Qwen-Image, SD 3.5 Large) y los modelos cerrados más fuertes en el benchmark de preferencia humana. Se reportan cinco suites:
| Benchmark | Qué mide | HiDream-O1 (8B) | FLUX.2 Dev (56B) | Qwen-Image (27B) | SD 3.5 Large (13.6B) |
|---|---|---|---|---|---|
| GenEval | Precisión composicional (objetos, cantidad, color, posición) | 0.90 | 0.87 | 0.87 | 0.71 |
| DPG-Bench | Alineación con prompts densos | 89.83 | 87.57 | 88.32 | 84.08 |
| HPSv3 | Preferencia humana (12 categorías) | 10.37 | 9.28 | 9.94 | — |
| CVTG-2K | Texto visual complejo (2–5 regiones) | 0.9128 | 0.8926 | 0.8288 | 0.6548 |
| LongText-Bench | Renderizado de texto largo multilingüe | 0.979 EN / 0.978 ZH | — | — | — |
Dos cosas destacan. Primero, HiDream-O1 gana todos los benchmarks reportados mientras es 7× más pequeño que FLUX.2 Dev y 3.4× más pequeño que Qwen-Image. El conteo de parámetros ya no es un indicador limpio de calidad cuando la arquitectura y la composición de datos divergen. Segundo, los números de renderizado de texto son los más interesantes — CVTG-2K y LongText-Bench estresan específicamente el modo de fallo donde los modelos de espacio latente históricamente colapsan, y el diseño nativo de píxeles de HiDream-O1 es exactamente el tipo de cambio que debería ayudar allí. La división 0.979 / 0.978 EN/ZH sugiere que la ganancia no es una peculiaridad de la tokenización en inglés.
El número de HPSv3 (10.37/12) lo coloca por delante de DALL-E 3 y GPT Image 2 en las tablas del informe — una comparación cerrado-vs-abierto que era impensable en esta clase de tamaño hace doce meses.
El Agente de Prompt Impulsado por Razonamiento
Incluido con el lanzamiento hay un agente de prompt separado — no forma parte del modelo de difusión, sino un envoltorio que ejecuta Gemma-4-31B-it (o cualquier API compatible con OpenAI) sobre la instrucción del usuario antes de la generación. El agente produce JSON con tres campos: traza de razonamiento, conocimiento implícito resuelto (p. ej., “el usuario dijo ‘un general de la Dinastía Tang’ — eso significa un estilo de armadura y armas específicos”), y un prompt refinado con especificaciones explícitas de diseño/renderizado de texto.
Este es el mismo patrón que el reescritor de prompts GPT-4 de DALL-E 3 y la integración Gemini de Imagen 3, pero publicado como un componente separado e intercambiable que se puede ejecutar localmente. Para prompts donde importa el razonamiento de diseño — texto multi-región, relaciones espaciales específicas, especificidad cultural — ejecutar el agente primero es lo que cierra la brecha con los sistemas de código cerrado que tienen un LLM en el pipeline por defecto.
Ejecutarlo localmente
El repositorio es sencillo:
git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt
Texto a imagen con Dev:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
--output_image results/output.png
Edición con una imagen de referencia:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "remove the earphones" \
--ref_images input.jpg \
--output_image results/edited.png
La personalización impulsada por sujeto funciona de la misma manera — pasa múltiples imágenes de referencia del mismo sujeto:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--prompt "A young boy stands on steps wearing light blue jeans..." \
--ref_images ref1.jpg ref2.jpg ref3.jpg \
--output_image results/personalized.png
También se incluye una demo web (python app.py --model_path ... --port 7860).
La atención flash es recomendada pero no obligatoria — hay un cambio documentado de una línea en models/pipeline.py si no está disponible. La VRAM escala con la resolución de salida; la generación 2K×2K es la capacidad principal del modelo pero requiere memoria sustancial.
En qué se diferencia de HiDream-I1
El HiDream-I1 original, lanzado a principios de 2025, era un DiT MoE disperso de 17B que operaba en espacio latente — arquitectónicamente convencional, competir en calidad. O1 es un reinicio: el conteo de parámetros baja a 8B, el VAE y el codificador de texto se eliminan, y la arquitectura en sí es la contribución. La convención de nomenclatura también es un claro guiño al rebranding del modelo de razonamiento de OpenAI — “O1” señala el agente de razonamiento de prompts integrado, aunque el modelo de difusión en sí es un muestreador estándar de un solo disparo.
Si estás eligiendo entre ellos hoy: I1 Dev es más antiguo, bien soportado en plataformas de inferencia y probado en producción. O1 Dev es más nuevo, más pequeño, puntúa más alto en todos los benchmarks que el equipo reportó y renderiza texto de manera mucho más confiable — pero la arquitectura nativa de píxeles es lo suficientemente novedosa como para que las herramientas de terceros (nodos ComfyUI, cuantizaciones, scripts de entrenamiento LoRA) tarden en ponerse al día.
Dónde encaja
HiDream-O1-Image-Dev es el lanzamiento de modelo de imagen de pesos abiertos más interesante arquitectónicamente de 2026 hasta ahora. El equipo hizo una apuesta contraria — eliminar el espacio latente, eliminar los codificadores externos, hacer todo en un transformador — y los benchmarks respaldan la apuesta, especialmente en las categorías de cola larga (renderizado de texto, composición compleja, multilingüe) donde los modelos latentes históricamente han tenido dificultades.
El variante Dev específicamente es el que la mayoría de la gente ejecutará realmente: 28 pasos, sin CFG, licencia MIT, multi-tarea con un solo checkpoint. Si has estado esperando un modelo abierto que iguale a GPT Image 2 o DALL-E 3 en calidad de texto en imagen sin el precio de la API cerrada, este es.
El repositorio está en github.com/HiDream-ai/HiDream-O1-Image, los pesos Dev están en huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, y hay un Space alojado disponible para probarlo sin la instalación local.
