HiDream-O1-Image-Dev: Das 8B-Pixel-Native-Modell, das das 56B FLUX.2 übertraf

HiDream-O1-Image-Dev ist ein destilliertes 8B-Bildmodell, das auf VAE und externen Textencoder verzichtet, nativ 2K-Bilder generiert und Modelle mit der 7-fachen Größe bei GenEval, DPG und HPSv3 übertrifft.

By WaveSpeedAI 7 min read

Am 8. Mai 2026 hat HiDream-ai HiDream-O1-Image unter der MIT-Lizenz als Open Source veröffentlicht — und die Architekturentscheidung ist die eigentliche Schlagzeile. Während fast jedes neuere Text-zu-Bild-Modell ein latenter Diffusionstransformer ist (DiT, der auf VAE-komprimierten Tokens arbeitet, mit Text, der durch ein eingefrorenes T5 oder CLIP geleitet wird), wirft HiDream-O1 den latenten Stack vollständig über Bord. Es führt den Diffusionstransformer auf rohen Pixeln aus, wobei Text- und Aufgabenbedingungen denselben Token-Raum teilen.

Zwei Checkpoints wurden veröffentlicht: das vollständige HiDream-O1-Image (50 Schritte, CFG 5,0) und das destillierte HiDream-O1-Image-Dev (28 Schritte, CFG 0,0). Beide haben 8B Parameter. Stand 5. Mai 2026 belegt das Modell — mit dem Codenamen PeanutPlatz #8 in der Artificial Analysis Text-to-Image Arena, der höchstplatzierte Open-Weight-Eintrag in der Rangliste.

Dieser Artikel geht durch, was an der Architektur tatsächlich anders ist, was die Dev-Destillation im Vergleich zum vollständigen Modell aufgibt, und wie die gemeldeten Benchmarks im Vergleich zu FLUX.2, Qwen-Image und SD 3.5 Large abschneiden.

Der Pixel-Level Unified Transformer

Moderne offene Bildmodelle teilen sich fast universell ein Rezept:

  1. Ein VAE komprimiert 1024×1024 RGB in ~64×64 latente Tokens.
  2. Ein Text-Encoder (T5-XXL, CLIP, Gemma) bettet den Prompt in einen separaten Vektorraum ein.
  3. Ein DiT entrauscht die latenten Tokens mit Cross-Attention auf das Text-Embedding.

Dies ist effizient — die Diffusion findet bei 1/64 der räumlichen Auflösung statt — aber es stapelt drei unabhängig trainierte Komponenten, jede mit ihren eigenen Fehlerquellen. Latente VAEs verlieren Feindetails und lassen Farben an Kompressionsgrenzen ausbluten. Für Retrieval trainierte Text-Encoder kodieren nicht notwendigerweise das räumliche Denken, das ein Generator benötigt. Cross-Attention zwischen zwei fremden Embedding-Räumen ist der Punkt, an dem Text-Rendering und Kleinstobjekt-Genauigkeit typischerweise zusammenbrechen.

HiDream-O1 kollabiert den Stack. Der Pixel-level Unified Transformer (UiT) behandelt Pixel-Patches, Text-Tokens und Aufgabenbedingung-Tokens als Mitglieder einer gemeinsamen Sequenz. Es gibt keinen VAE — das Modell arbeitet auf rohen RGB-Patches. Es gibt keinen separaten Text-Encoder — Text-Tokens fließen in denselben Transformer. Die Diffusion findet direkt im Pixelraum statt.

Die Kosten sind offensichtlich (mehr Compute pro Token, da kein Downsampling auf 64× möglich ist), und die Antwort des Teams ist Sparsität und Scheduling — der veröffentlichte technische Bericht beschreibt einen Flash-Scheduler mit vordefinierten Zeitschritten, der es der Dev-Variante ermöglicht, in 28 Schritten mit Guidance-Scale 0 zu konvergieren. Der Vorteil, wenn die Architektur funktioniert, ist, dass jede Modalität in einer Repräsentation lebt — genau das, was man braucht, wenn dasselbe Modell Text-zu-Bild, anweisungsgesteuertes Bearbeiten, Multi-Referenz-Personalisierung und Storyboard-Generierung ohne Head-Swaps durchführen soll.

Was HiDream-O1-Image-Dev tatsächlich leistet

Der Dev-Checkpoint ist guidance-destilliert — er ist darauf trainiert, CFG-konditionierte Ausgaben in einem einzigen Forward-Pass zu erzeugen, sodass man guidance_scale=0.0 setzt und den verdoppelten Compute überspringt, den Classifier-Free Guidance normalerweise erfordert. Das allein halbiert grob die Wanduhrzeit bei jeder Schrittzahl.

Die Schrittzahl sinkt von 50 → 28 gegenüber dem vollständigen Modell. Kombiniert mit den CFG-Einsparungen ist Dev bedeutend schneller — die eigene Formulierung des Teams ist „ausgewogener Kompromiss zwischen Qualität und Rechenaufwand”, was der Positionierung der I1-Dev-Variante ein Jahr zuvor entspricht.

Vom selben Checkpoint unterstützte Fähigkeiten:

  • Text-zu-Bild bei bis zu 2048×2048 nativer Auflösung (kein Upscaler in der Pipeline)
  • Anweisungsbasiertes Bearbeiten (--ref_images input.jpg --prompt "remove the earphones")
  • Subjektgesteuerte Personalisierung — Multi-Referenz-Identitätserhaltung, nimmt 2+ Referenzbilder desselben Motivs und platziert sie in neuen Kontexten
  • Langtext-Rendering — mehrsprachig, mit gemeldeten Scores nahe der Parität auf Englisch und Mandarin LongText-Bench
  • Storyboard-Generierung — sequentielle Frames mit konsistenten Charakteren/Setting

Die vier Aufgaben teilen Gewichte. Es gibt keinen LoRA-Swap oder Adapter-Laden zwischen Text-zu-Bild und Bearbeiten — man übergibt einfach --ref_images, um den Modus zu wechseln.

Benchmarks: wo der 8B-Anspruch tatsächlich standhält

Der technische Bericht vergleicht mit den offensichtlichen Open-Weight-Peers (FLUX.2, Qwen-Image, SD 3.5 Large) und den stärksten geschlossenen Modellen auf dem Human-Preference-Benchmark. Fünf Suiten werden berichtet:

BenchmarkWas gemessen wirdHiDream-O1 (8B)FLUX.2 Dev (56B)Qwen-Image (27B)SD 3.5 Large (13,6B)
GenEvalKompositionelle Genauigkeit (Objekte, Anzahl, Farbe, Position)0,900,870,870,71
DPG-BenchDichte Prompt-Ausrichtung89,8387,5788,3284,08
HPSv3Menschliche Präferenz (12 Kategorien)10,379,289,94
CVTG-2KKomplexer visueller Text (2–5 Regionen)0,91280,89260,82880,6548
LongText-BenchMehrsprachiges Langtext-Rendering0,979 EN / 0,978 ZH

Zwei Dinge fallen auf. Erstens gewinnt HiDream-O1 jeden gemeldeten Benchmark, während es 7× kleiner als FLUX.2 Dev und 3,4× kleiner als Qwen-Image ist. Die Parameteranzahl ist kein sauberer Proxy mehr für Qualität, sobald Architektur und Datenzusammensetzung auseinanderdriften. Zweitens sind die Text-Rendering-Zahlen am interessantesten — CVTG-2K und LongText-Bench betonen speziell den Fehlermodus, bei dem latente Modelle historisch kollabieren, und HiDream-O1s pixelnativer Ansatz ist genau die Art von Änderung, die dort helfen sollte. Der 0,979/0,978 EN/ZH-Split deutet darauf hin, dass der Gewinn kein Quirk der englischen Tokenisierung ist.

Die HPSv3-Zahl (10,37/12) stellt es in den Tabellen des Berichts vor DALL-E 3 und GPT Image 2 — ein Closed-vs.-Open-Vergleich, der in dieser Größenklasse vor zwölf Monaten undenkbar gewesen wäre.

Der Reasoning-Driven Prompt Agent

Mit der Veröffentlichung kommt ein separater Prompt-Agent — kein Teil des Diffusionsmodells, sondern ein Wrapper, der Gemma-4-31B-it (oder eine beliebige OpenAI-kompatible API) über die Anweisung des Benutzers ausführt, bevor die Generierung beginnt. Der Agent gibt JSON mit drei Feldern aus: Reasoning-Trace, aufgelöstes implizites Wissen (z. B. „Benutzer sagte ‚ein General der Tang-Dynastie’ — das bedeutet einen bestimmten Rüstungsstil und Waffen”) und einen verfeinerten Prompt mit expliziten Layout-/Textrendering-Spezifikationen.

Dies ist dasselbe Muster wie DALLEs 3’s GPT-4-Prompt-Umschreiber und Imagen 3’s Gemini-Integration, aber als separates, austauschbares Komponente geliefert, das man lokal ausführen kann. Bei Prompts, bei denen Layout-Reasoning wichtig ist — Multi-Region-Text, spezifische räumliche Beziehungen, kulturelle Spezifität — schließt das vorherige Ausführen des Agenten die Lücke zu geschlossenen Systemen, die standardmäßig ein LLM in der Pipeline haben.

Lokal ausführen

Das Repo ist unkompliziert:

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

Text-zu-Bild mit Dev:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
    --output_image results/output.png

Bearbeiten mit einem Referenzbild:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "remove the earphones" \
    --ref_images input.jpg \
    --output_image results/edited.png

Subjektgesteuerte Personalisierung funktioniert auf dieselbe Weise — mehrere Referenzbilder desselben Motivs übergeben:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --prompt "A young boy stands on steps wearing light blue jeans..." \
    --ref_images ref1.jpg ref2.jpg ref3.jpg \
    --output_image results/personalized.png

Eine Web-Demo (python app.py --model_path ... --port 7860) ist ebenfalls enthalten.

Flash Attention wird empfohlen, ist aber nicht erforderlich — es gibt eine dokumentierte einzeilige Änderung in models/pipeline.py, falls es nicht verfügbar ist. VRAM skaliert mit der Ausgabeauflösung; die 2K×2K-Generierung ist die Flaggschiff-Fähigkeit des Modells, erfordert aber erheblichen Speicher.

Unterschied zu HiDream-I1

Das ursprüngliche HiDream-I1, Anfang 2025 veröffentlicht, war ein 17B Sparse-MoE-DiT, der im latenten Raum operiert — architektonisch konventionell, auf Qualität ausgerichtet. O1 ist ein Neustart: die Parameteranzahl sinkt auf 8B, VAE und Text-Encoder fallen heraus, und die Architektur selbst ist der Beitrag. Die Namenskonvention ist auch eine klare Anspielung auf OpenAIs Reasoning-Modell-Rebranding — „O1” signalisiert den integrierten Prompt-Reasoning-Agenten, obwohl das Diffusionsmodell selbst ein Standard-Einzel-Durchlauf-Sampler ist.

Wenn man heute zwischen ihnen wählt: I1 Dev ist älter, auf Inferenzplattformen gut unterstützt und in der Produktion bewährt. O1 Dev ist neuer, kleiner, erzielt höhere Werte in jedem vom Team gemeldeten Benchmark und rendert Text weit zuverlässiger — aber die pixelnative Architektur ist neu genug, dass Third-Party-Tooling (ComfyUI-Nodes, Quantisierungen, LoRA-Trainingsskripte) Zeit brauchen wird, um aufzuholen.

Einordnung

HiDream-O1-Image-Dev ist das architektonisch interessanteste Open-Weight-Bildmodell-Release von 2026 bisher. Das Team hat eine konträre Wette platziert — den latenten Raum weglassen, die externen Encoder weglassen, alles in einem Transformer erledigen — und die Benchmarks bestätigen die Wette, besonders in den Long-Tail-Kategorien (Text-Rendering, komplexe Komposition, mehrsprachig), bei denen latente Modelle historisch zu kämpfen hatten.

Die Dev-Variante ist speziell diejenige, die die meisten Menschen tatsächlich ausführen werden: 28 Schritte, kein CFG, MIT-Lizenz, Single-Checkpoint-Multi-Task. Wenn man auf ein offenes Modell gewartet hat, das GPT Image 2 oder DALL-E 3 bei der Text-im-Bild-Qualität ohne den Closed-API-Preis entspricht, ist dies das Richtige.

Das Repo befindet sich unter github.com/HiDream-ai/HiDream-O1-Image, die Dev-Gewichte unter huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, und ein gehosteter Space steht zum Ausprobieren ohne lokale Installation bereit.