HiDream-O1-Image-Dev : le modèle natif 8B pixels qui surpasse FLUX.2 à 56B

Le 8 mai 2026, HiDream-ai a publié HiDream-O1-Image en open source sous licence MIT — et le choix d’architecture fait la une. Là où presque tous les modèles texte-vers-image récents sont des transformeurs de diffusion latente (DiT opérant sur des tokens compressés par VAE, avec le texte acheminé via un T5 ou CLIP gelé), HiDream-O1 abandonne entièrement la pile latente. Il exécute le transformeur de diffusion sur des pixels bruts, avec le texte et les conditions de tâche partageant le même espace de tokens.

Deux checkpoints ont été publiés : le modèle complet HiDream-O1-Image (50 étapes, CFG 5.0) et le modèle distillé HiDream-O1-Image-Dev (28 étapes, CFG 0.0). Les deux disposent de 8 milliards de paramètres. Au 5 mai 2026, le modèle — nom de code Peanut — se classe #8 sur l’Artificial Analysis Text-to-Image Arena, le modèle open-weight le mieux classé du tableau.

Cet article examine ce qui est réellement différent dans l’architecture, ce à quoi la distillation Dev renonce par rapport au modèle complet, et comment les benchmarks rapportés se comparent à FLUX.2, Qwen-Image et SD 3.5 Large.

Le Transformeur Unifié au Niveau des Pixels

Les modèles d’image open modernes partagent presque universellement une recette :

Un VAE compresse du RGB 1024×1024 en ~64×64 tokens latents.
Un encodeur de texte (T5-XXL, CLIP, Gemma) intègre le prompt dans un espace vectoriel séparé.
Un DiT débruite les tokens latents, en effectuant une cross-attention sur l’embedding de texte.

C’est efficace — la diffusion se produit à 1/64e de la résolution spatiale — mais cela empile trois composants entraînés indépendamment, chacun avec ses propres modes d’échec. Les VAE latents perdent les détails fins et font saigner les couleurs aux frontières de compression. Les encodeurs de texte entraînés pour la récupération n’encodent pas nécessairement le raisonnement spatial dont un générateur a besoin. La cross-attention entre deux espaces d’embedding étrangers est là où le rendu de texte et la précision des petits objets s’effondrent typiquement.

HiDream-O1 s’effondre la pile. Le Transformeur Unifié au niveau des pixels (UiT) traite les patches de pixels, les tokens de texte et les tokens de condition de tâche comme membres d’une seule séquence partagée. Il n’y a pas de VAE — le modèle opère sur des patches RGB bruts. Il n’y a pas d’encodeur de texte séparé — les tokens de texte circulent dans le même transformeur. La diffusion se produit directement dans l’espace des pixels.

Le coût est évident (plus de calcul par token, puisqu’on ne peut pas sous-échantillonner 64×) et la réponse de l’équipe est la parcimonie et la planification — le rapport technique publié décrit un scheduleur flash avec des timesteps prédéfinis qui permet à la variante Dev de converger en 28 étapes avec une échelle de guidance de 0. L’avantage, si l’architecture fonctionne, est que chaque modalité vit dans une seule représentation, ce qui est exactement ce que vous voulez quand le même modèle doit faire de la génération texte-vers-image, de l’édition guidée par instructions, de la personnalisation multi-référence et de la génération de storyboard sans changements de tête.

Ce que fait réellement HiDream-O1-Image-Dev

Le checkpoint Dev est distillé par guidance — il est entraîné pour produire des sorties conditionnées par CFG en une seule passe avant, donc vous définissez guidance_scale=0.0 et évitez le calcul doublé que la guidance sans classifieur requiert normalement. Cela seul réduit environ de moitié le temps d’horloge murale à n’importe quel nombre d’étapes.

Le nombre d’étapes passe de 50 → 28 par rapport au modèle complet. Combiné avec les économies de CFG, Dev est significativement plus rapide — le cadrage de l’équipe est « compromis équilibré entre qualité et demande computationnelle », ce qui correspond au positionnement de la variante I1 Dev un an plus tôt.

Capacités prises en charge par le même checkpoint :

Texte vers image jusqu’à une résolution native de 2048×2048 (pas d’upscaler dans le pipeline)
Édition basée sur des instructions (--ref_images input.jpg --prompt "remove the earphones")
Personnalisation guidée par sujet — préservation d’identité multi-référence, prend 2+ images de référence du même sujet et les place dans de nouveaux contextes
Rendu de texte long — multilingue, avec des scores de parité quasi reportés sur LongText-Bench en anglais et mandarin
Génération de storyboard — images séquentielles avec personnages/décor cohérents

Les quatre tâches partagent les poids. Il n’y a pas d’échange de LoRA ou de chargement d’adaptateur entre texte-vers-image et édition — vous passez simplement --ref_images pour changer de mode.

Benchmarks : où la revendication 8B tient réellement

Le rapport technique compare avec les pairs open-weight évidents (FLUX.2, Qwen-Image, SD 3.5 Large) et les modèles fermés les plus forts sur le benchmark de préférence humaine. Cinq suites sont rapportées :

Benchmark	Ce qu’il mesure	HiDream-O1 (8B)	FLUX.2 Dev (56B)	Qwen-Image (27B)	SD 3.5 Large (13,6B)
GenEval	Précision compositionnelle (objets, compte, couleur, position)	0,90	0,87	0,87	0,71
DPG-Bench	Alignement de prompt dense	89,83	87,57	88,32	84,08
HPSv3	Préférence humaine (12 catégories)	10,37	9,28	9,94	—
CVTG-2K	Texte visuel complexe (2–5 régions)	0,9128	0,8926	0,8288	0,6548
LongText-Bench	Rendu de texte long multilingue	0,979 EN / 0,978 ZH	—	—	—

Deux choses se distinguent. Premièrement, HiDream-O1 remporte tous les benchmarks rapportés tout en étant 7× plus petit que FLUX.2 Dev et 3,4× plus petit que Qwen-Image. Le nombre de paramètres n’est plus un proxy propre pour la qualité une fois que l’architecture et la composition des données divergent. Deuxièmement, les chiffres de rendu de texte sont les plus intéressants — CVTG-2K et LongText-Bench mettent spécifiquement à l’épreuve le mode d’échec où les modèles en espace latent s’effondrent historiquement, et la conception native en pixels de HiDream-O1 est exactement le type de changement qui devrait aider. Le split 0,979 / 0,978 EN/ZH suggère que le gain n’est pas une particularité de la tokenisation anglaise.

Le chiffre HPSv3 (10,37/12) le place devant DALL-E 3 et GPT Image 2 dans les tableaux du rapport — une comparaison fermé-vs-ouvert qui était impensable dans cette classe de taille il y a douze mois.

L’Agent de Prompt Guidé par le Raisonnement

Inclus dans la publication se trouve un agent de prompt séparé — pas une partie du modèle de diffusion, mais un wrapper qui exécute Gemma-4-31B-it (ou toute API compatible OpenAI) sur l’instruction de l’utilisateur avant la génération. L’agent produit du JSON avec trois champs : trace de raisonnement, connaissance implicite résolue (par ex. « l’utilisateur a dit ‘un général de la Dynastie Tang’ — cela signifie un style d’armure et des armes spécifiques »), et un prompt raffiné avec des spécifications explicites de mise en page/rendu de texte.

C’est le même modèle que le réécriture de prompt GPT-4 de DALL-E 3 et l’intégration Gemini d’Imagen 3, mais livré comme un composant séparé et interchangeable que vous pouvez exécuter localement. Pour les prompts où le raisonnement de mise en page compte — texte multi-région, relations spatiales spécifiques, spécificité culturelle — exécuter l’agent en premier est ce qui comble l’écart avec les systèmes à source fermée qui ont un LLM dans le pipeline par défaut.

L’exécuter localement

Le dépôt est simple :

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

Texte vers image avec Dev :

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
    --output_image results/output.png

Édition avec une image de référence :

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "remove the earphones" \
    --ref_images input.jpg \
    --output_image results/edited.png

La personnalisation guidée par sujet fonctionne de la même façon — passez plusieurs images de référence du même sujet :

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --prompt "A young boy stands on steps wearing light blue jeans..." \
    --ref_images ref1.jpg ref2.jpg ref3.jpg \
    --output_image results/personalized.png

Une démo web (python app.py --model_path ... --port 7860) est également incluse.

L’attention flash est recommandée mais pas obligatoire — il y a un changement d’une ligne documenté dans models/pipeline.py si elle n’est pas disponible. La VRAM évolue avec la résolution de sortie ; la génération 2K×2K est la capacité phare du modèle mais nécessite une mémoire substantielle.

En quoi il diffère de HiDream-I1

Le HiDream-I1 original, sorti début 2025, était un DiT sparse-MoE de 17B opérant dans l’espace latent — architecturalement conventionnel, visant la compétition sur la qualité. O1 est une remise à zéro : le nombre de paramètres descend à 8B, le VAE et l’encodeur de texte sont retirés, et l’architecture elle-même est la contribution. La convention de nommage est également une référence claire au rebranding de modèle de raisonnement d’OpenAI — « O1 » signale l’agent de raisonnement de prompt intégré, même si le modèle de diffusion lui-même est un échantillonneur standard en une seule passe.

Si vous choisissez entre les deux aujourd’hui : I1 Dev est plus ancien, bien pris en charge sur les plateformes d’inférence, et éprouvé en production. O1 Dev est plus récent, plus petit, obtient de meilleurs scores sur tous les benchmarks que l’équipe a rapportés, et rend le texte de manière beaucoup plus fiable — mais l’architecture native en pixels est suffisamment nouvelle pour que les outils tiers (nœuds ComfyUI, quantifications, scripts d’entraînement LoRA) mettront du temps à rattraper.

Où il se situe

HiDream-O1-Image-Dev est la publication de modèle d’image open-weight la plus architecturalement intéressante de 2026 jusqu’à présent. L’équipe a fait un pari contrarian — abandonner l’espace latent, abandonner les encodeurs externes, tout faire dans un seul transformeur — et les benchmarks soutiennent ce pari, en particulier dans les catégories de longue traîne (rendu de texte, composition complexe, multilingue) où les modèles latents ont historiquement eu du mal.

La variante Dev spécifiquement est celle que la plupart des gens exécuteront réellement : 28 étapes, pas de CFG, licence MIT, multi-tâche à checkpoint unique. Si vous attendiez un modèle ouvert qui correspond à GPT Image 2 ou DALL-E 3 sur la qualité texte-dans-image sans le prix de l’API fermée, c’est celui-là.

Le dépôt est sur github.com/HiDream-ai/HiDream-O1-Image, les poids Dev sont sur huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, et un Space hébergé est disponible pour l’essayer sans installation locale.

Le Transformeur Unifié au Niveau des Pixels

Ce que fait réellement HiDream-O1-Image-Dev

Benchmarks : où la revendication 8B tient réellement

L’Agent de Prompt Guidé par le Raisonnement

L’exécuter localement

En quoi il diffère de HiDream-I1

Où il se situe

Articles associés

Claude Fable 5 vient de sortir : 80,3 % sur SWE-Bench Pro, prix 2× Opus 4.8, gratuit jusqu'au 22 juin

Reve 2.0 : Le modèle d'image 4K axé sur la mise en page qui défie GPT Image 2 et Nano Banana

GPT Image 2 vs FLUX 2 vs Imagen 4 : Quelle API d'image les développeurs devraient-ils utiliser en 2026 ?

Claude Sonnet 4.8 : Ce que la fuite révèle vraiment, et pourquoi le schéma ne colle pas

Seedance 2.1 et Seedance 2.0 Mini arrivent : amélioration de la qualité, niveau de prix inférieur

GPT-5.6 vient d'apparaître dans les journaux Codex d'OpenAI — voici ce que cela signifie vraiment