HiDream-O1-Image-Dev: Model 8B Asli-Pixel yang Mengalahkan FLUX.2 56B

Pada 8 Mei 2026, HiDream-ai merilis HiDream-O1-Image sebagai open-source di bawah lisensi MIT — dan pilihan arsitekturnya menjadi berita utama. Di mana hampir setiap model text-to-image terbaru adalah latent diffusion transformer (DiT yang beroperasi pada token terkompresi VAE, dengan teks diarahkan melalui T5 atau CLIP yang dibekukan), HiDream-O1 membuang seluruh tumpukan laten. Model ini menjalankan diffusion transformer pada piksel mentah, dengan kondisi teks dan tugas berbagi ruang token yang sama.

Dua checkpoint dirilis: HiDream-O1-Image penuh (50 langkah, CFG 5.0) dan HiDream-O1-Image-Dev yang telah didistilasi (28 langkah, CFG 0.0). Keduanya memiliki 8B parameter. Per 5 Mei 2026, model ini — dengan nama kode Peanut — berada di #8 pada Artificial Analysis Text-to-Image Arena, entry open-weight dengan peringkat tertinggi di papan tersebut.

Artikel ini membahas apa yang sebenarnya berbeda dari arsitekturnya, apa yang dikorbankan oleh distilasi Dev dibandingkan model penuh, dan bagaimana benchmark yang dilaporkan berhadapan dengan FLUX.2, Qwen-Image, dan SD 3.5 Large.

Pixel-Level Unified Transformer

Model gambar open-source modern hampir semuanya berbagi resep yang sama:

Sebuah VAE mengompresi RGB 1024×1024 menjadi ~64×64 token laten.
Sebuah text encoder (T5-XXL, CLIP, Gemma) menyematkan prompt dalam ruang vektor terpisah.
Sebuah DiT melakukan denoising pada token laten, dengan cross-attention ke embedding teks.

Ini efisien — difusi terjadi pada 1/64 resolusi spasial — tetapi menumpuk tiga komponen yang dilatih secara independen, masing-masing dengan mode kegagalannya sendiri. VAE laten kehilangan detail halus dan membocorkan warna pada batas kompresi. Text encoder yang dilatih untuk pengambilan informasi tidak selalu mengodekan penalaran spasial yang dibutuhkan generator. Cross-attention antara dua ruang embedding asing adalah tempat di mana rendering teks dan akurasi objek kecil biasanya gagal.

HiDream-O1 meruntuhkan tumpukan ini. Pixel-level Unified Transformer (UiT) memperlakukan patch piksel, token teks, dan token kondisi tugas sebagai anggota satu urutan bersama. Tidak ada VAE — model beroperasi pada patch RGB mentah. Tidak ada text encoder terpisah — token teks mengalir ke transformer yang sama. Difusi terjadi langsung di ruang piksel.

Biayanya jelas (lebih banyak komputasi per token, karena Anda tidak bisa melakukan downsample 64×) dan jawaban tim adalah sparsity dan penjadwalan — laporan teknis yang dirilis menggambarkan flash scheduler dengan timestep yang telah ditentukan yang memungkinkan varian Dev untuk konvergen dalam 28 langkah dengan guidance scale 0. Manfaatnya, jika arsitektur ini berhasil, adalah bahwa setiap modalitas hidup dalam satu representasi, yang persis apa yang Anda inginkan ketika model yang sama perlu melakukan text-to-image, editing berbasis instruksi, personalisasi multi-referensi, dan pembuatan storyboard tanpa pergantian kepala.

Apa yang sebenarnya dilakukan HiDream-O1-Image-Dev

Checkpoint Dev didistilasi dengan guidance — dilatih untuk menghasilkan output berkondisi CFG dalam satu forward pass, sehingga Anda menetapkan guidance_scale=0.0 dan melewati komputasi ganda yang biasanya diperlukan classifier-free guidance. Itu saja kira-kira mengurangi separuh waktu dinding jam pada jumlah langkah berapa pun.

Jumlah langkah turun dari 50 → 28 dibandingkan model penuh. Dikombinasikan dengan penghematan CFG, Dev secara berarti lebih cepat — framing tim sendiri adalah “trade-off seimbang antara kualitas dan kebutuhan komputasi,” yang sesuai dengan posisi varian I1 Dev setahun sebelumnya.

Kemampuan yang didukung oleh checkpoint yang sama:

Text-to-image hingga resolusi native 2048×2048 (tanpa upscaler dalam pipeline)
Editing berbasis instruksi (--ref_images input.jpg --prompt "remove the earphones")
Personalisasi berbasis subjek — preservasi identitas multi-referensi, mengambil 2+ gambar referensi dari subjek yang sama dan menempatkannya dalam konteks baru
Rendering teks panjang — multibahasa, dengan skor mendekati paritas yang dilaporkan pada LongText-Bench Inggris dan Mandarin
Pembuatan storyboard — frame sekuensial dengan karakter/pengaturan yang konsisten

Empat tugas berbagi bobot. Tidak ada swap LoRA atau pemuatan adapter antara text-to-image dan editing — Anda cukup melewati --ref_images untuk beralih mode.

Benchmark: di mana klaim 8B benar-benar bertahan

Laporan teknis membandingkan dengan peer open-weight yang sudah jelas (FLUX.2, Qwen-Image, SD 3.5 Large) dan model tertutup terkuat pada benchmark preferensi manusia. Lima suite dilaporkan:

Benchmark	Yang diukur	HiDream-O1 (8B)	FLUX.2 Dev (56B)	Qwen-Image (27B)	SD 3.5 Large (13.6B)
GenEval	Akurasi komposisional (objek, jumlah, warna, posisi)	0.90	0.87	0.87	0.71
DPG-Bench	Keselarasan prompt padat	89.83	87.57	88.32	84.08
HPSv3	Preferensi manusia (12 kategori)	10.37	9.28	9.94	—
CVTG-2K	Teks visual kompleks (2–5 region)	0.9128	0.8926	0.8288	0.6548
LongText-Bench	Rendering teks panjang multibahasa	0.979 EN / 0.978 ZH	—	—	—

Dua hal menonjol. Pertama, HiDream-O1 memenangkan setiap benchmark yang dilaporkan sambil 7× lebih kecil dari FLUX.2 Dev dan 3,4× lebih kecil dari Qwen-Image. Jumlah parameter bukan lagi proxy yang bersih untuk kualitas ketika arsitektur dan komposisi data berbeda. Kedua, angka rendering teks adalah yang paling menarik — CVTG-2K dan LongText-Bench secara khusus menekan mode kegagalan di mana model ruang laten secara historis kolaps, dan desain native piksel HiDream-O1 adalah persis jenis perubahan yang seharusnya membantu di sana. Pemisahan 0.979 / 0.978 EN/ZH menunjukkan keuntungan bukan merupakan keanehan tokenisasi bahasa Inggris.

Angka HPSv3 (10.37/12) menempatkannya di depan DALL-E 3 dan GPT Image 2 dalam tabel laporan — perbandingan tertutup-vs-terbuka yang tidak terbayangkan dalam kelas ukuran ini dua belas bulan lalu.

Agen Prompt Berbasis Penalaran

Disertakan bersama rilisan adalah agen prompt terpisah — bukan bagian dari model difusi, tetapi wrapper yang menjalankan Gemma-4-31B-it (atau API kompatibel OpenAI mana pun) atas instruksi pengguna sebelum generasi. Agen menghasilkan JSON dengan tiga field: jejak penalaran, pengetahuan implisit yang diselesaikan (misalnya “pengguna menyebut ‘seorang jenderal Dinasti Tang’ — itu berarti gaya baju besi dan senjata tertentu”), dan prompt yang disempurnakan dengan spesifikasi tata letak/rendering teks yang eksplisit.

Ini adalah pola yang sama dengan penulis ulang prompt GPT-4 DALL-E 3 dan integrasi Gemini Imagen 3, tetapi dikirimkan sebagai komponen terpisah yang dapat diganti dan dapat Anda jalankan secara lokal. Untuk prompt di mana penalaran tata letak penting — teks multi-region, hubungan spasial tertentu, kekhususan budaya — menjalankan agen terlebih dahulu adalah yang menutup kesenjangan dengan sistem sumber tertutup yang secara default memiliki LLM dalam pipeline.

Menjalankannya secara lokal

Repo-nya sederhana:

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

Text-to-image dengan Dev:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
    --output_image results/output.png

Editing dengan gambar referensi:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "remove the earphones" \
    --ref_images input.jpg \
    --output_image results/edited.png

Personalisasi berbasis subjek bekerja dengan cara yang sama — lewatkan beberapa gambar referensi dari subjek yang sama:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --prompt "A young boy stands on steps wearing light blue jeans..." \
    --ref_images ref1.jpg ref2.jpg ref3.jpg \
    --output_image results/personalized.png

Demo web (python app.py --model_path ... --port 7860) juga disertakan.

Flash attention direkomendasikan tetapi tidak diwajibkan — ada perubahan satu baris yang terdokumentasi di models/pipeline.py jika tidak tersedia. VRAM menskalakan dengan resolusi output; generasi 2K×2K adalah kemampuan unggulan model tetapi membutuhkan memori yang cukup besar.

Perbedaannya dari HiDream-I1

HiDream-I1 asli, dirilis pada awal 2025, adalah sparse-MoE DiT 17B yang beroperasi di ruang laten — secara arsitektural konvensional, bersaing berdasarkan kualitas. O1 adalah reset: jumlah parameter turun menjadi 8B, VAE dan text encoder dikeluarkan, dan arsitektur itu sendiri adalah kontribusinya. Konvensi penamaan juga merupakan anggukan jelas ke rebranding model penalaran OpenAI — “O1” menandakan agen prompt penalaran terintegrasi, meskipun model difusi itu sendiri adalah sampler one-shot standar.

Jika Anda memilih di antara keduanya hari ini: I1 Dev lebih lama, didukung dengan baik di berbagai platform inferensi, dan terbukti dalam produksi. O1 Dev lebih baru, lebih kecil, mendapat skor lebih tinggi pada setiap benchmark yang dilaporkan tim, dan merender teks jauh lebih andal — tetapi arsitektur native piksel cukup baru sehingga tooling pihak ketiga (node ComfyUI, kuantisasi, skrip pelatihan LoRA) akan membutuhkan waktu untuk menyusul.

Di mana posisinya

HiDream-O1-Image-Dev adalah rilis model gambar open-weight yang paling menarik secara arsitektur pada tahun 2026 sejauh ini. Tim membuat taruhan kontroversial — buang ruang laten, buang encoder eksternal, lakukan semuanya dalam satu transformer — dan benchmark mendukung taruhan tersebut, terutama dalam kategori long-tail (rendering teks, komposisi kompleks, multibahasa) di mana model laten secara historis berjuang.

Varian Dev khususnya adalah yang akan benar-benar dijalankan oleh kebanyakan orang: 28 langkah, tanpa CFG, lisensi MIT, multi-tugas satu checkpoint. Jika Anda telah menunggu model terbuka yang menyamai GPT Image 2 atau DALL-E 3 pada kualitas teks-dalam-gambar tanpa harga API tertutup, inilah saatnya.

Repo-nya ada di github.com/HiDream-ai/HiDream-O1-Image, bobot Dev ada di huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, dan Space yang dihosting tersedia untuk mencobanya tanpa instalasi lokal.

Pixel-Level Unified Transformer

Apa yang sebenarnya dilakukan HiDream-O1-Image-Dev

Benchmark: di mana klaim 8B benar-benar bertahan

Agen Prompt Berbasis Penalaran

Menjalankannya secara lokal

Perbedaannya dari HiDream-I1

Di mana posisinya

Artikel Terkait

Claude Fable 5 Telah Dirilis: 80,3% di SWE-Bench Pro, Harga 2× Opus 4.8, Gratis Hingga 22 Juni

Reve 2.0: Model Gambar 4K Berbasis Tata Letak yang Menantang GPT Image 2 dan Nano Banana

GPT Image 2 vs FLUX 2 vs Imagen 4: API Gambar Mana yang Harus Digunakan Developer di 2026?

Claude Sonnet 4.8: Apa yang Sebenarnya Dikatakan Kebocoran Itu, dan Mengapa Polanya Tidak Cocok

Seedance 2.1 dan Seedance 2.0 Mini Segera Hadir: Peningkatan Kualitas, Harga Lebih Terjangkau

GPT-5.6 Baru Saja Muncul di Log Codex OpenAI — Ini Artinya Apa