Benchmark Dapat Direproduksi: Qwen Image 2512 vs SDXL vs FLUX untuk Text-in-Image

Halo, semua, saya Dora. Baru-baru ini saya telah menjalankan benchmark rendering teks, membandingkan Qwen Image 2512, SDXL, dan FLUX satu sama lain. Saya menghabiskan tiga minggu terakhir menguji pembuatan teks-di-gambar karena saya terus melihat klaim bahwa “model ini akhirnya menyelesaikan rendering teks.” Klaim terasa sangat besar. Buktinya terasa tipis.

Jadi saya membangun benchmark yang dapat direproduksi menggunakan Qwen Image 2512, SDXL, dan FLUX—tiga model yang terus dibandingkan orang. Saya ingin melihat apa yang benar-benar terjadi ketika Anda meminta mereka untuk merender poster, menu, dan tata letak campuran. Bukan contoh yang dipilih dengan cermat. Bukan tangkapan layar pemasaran. Hanya tes yang konsisten di seluruh prompt yang identik.

Mengapa Benchmark yang Dapat Direproduksi Penting

Sebagian besar perbandingan yang telah saya lihat menunjukkan contoh tunggal. Satu poster indah dari Model A, satu tanda rusak dari Model B. Ini memberi tahu Anda sesuatu terjadi sekali—bukan apa yang terjadi dengan andal.

Saya perlu memahami trade-off. Kapan SDXL kesulitan? Di mana FLUX bersinar? Apa yang benar-benar disampaikan Qwen Image 2512 ketika Anda mendorongnya dengan teks panjang atau tata letak yang kompleks?

Menurut dokumentasi model Hugging Face, Qwen Image 2512 meningkatkan akurasi rendering teks dan kualitas tata letak, dengan lebih dari 10.000 putaran evaluasi buta menunjukkannya sebagai model open-source terdepan. Sementara itu, pengujian komunitas menemukan bahwa FLUX jelas menang dalam rendering teks dibandingkan SDXL, menghasilkan teks yang benar di setiap gambar uji sementara SDXL kesulitan. Tetapi evaluasi tersebut tidak menjawab pertanyaan spesifik saya: apa yang terjadi dengan tata letak poster versus teks menu versus grafis thumbnail?

Pengaturan Benchmark

Saya menguji ketiga model menggunakan perangkat keras yang sama—NVIDIA RTX 4090 dengan VRAM 24GB. Setiap model berjalan dengan pengaturan yang disarankan untuk menghindari handicap yang tidak adil.

Set prompt yang sama di semua model

Dua puluh prompt total, diorganisir ke dalam empat kategori. Setiap prompt menentukan konten teks yang tepat, persyaratan tata letak, dan gaya visual. Saya menjalankan setiap prompt tiga kali per model untuk menangkap ketidakkonsistenan.

Saya tidak menggunakan prompt negatif untuk FLUX karena FLUX menggunakan flow matching daripada classifier-free guidance, yang berarti tidak mendukung conditioning negatif. Untuk menjaga perbandingan tetap adil, saya melewatkan prompt negatif untuk semua model.

Rasio aspek dan parameter yang sama

Setiap tes menggunakan resolusi 1024×1024.

SDXL berjalan dengan 30 langkah dan CFG scale 7
FLUX Dev menggunakan 20 langkah dengan guidance scale 5
Qwen Image 2512 berjalan dengan 28 langkah dan guidance scale 5, yang menurut pengujian komunitas menyeimbangkan kualitas dan kepatuhan prompt

Waktu generasi bervariasi secara signifikan. SDXL membutuhkan sekitar 13 detik untuk empat gambar, sementara FLUX Dev membutuhkan 57 detik—kira-kira empat kali lebih lama. Qwen Image 2512 berada di antara keduanya pada sekitar 5 detik per gambar dengan pengaturan yang dioptimalkan.

Set Prompt (Open Source)

Saya berbagi set prompt lengkap karena reproducibility memerlukan melihat tes yang sebenarnya. Ini bukan prompt yang sempurna—ini adalah skenario realistis yang benar-benar saya temui.

Untuk membuat perbandingan tingkat prompt lebih mudah direproduksi dan diperluas, kami juga menguji set prompt yang sama di berbagai lingkungan eksekusi, termasuk WaveSpeed, yang menyediakan antarmuka konsisten untuk menjalankan beberapa model gambar dengan parameter yang dapat dibandingkan.

Seperti semua hasil di sini, output tetap sensitif terhadap perumusan prompt, jumlah langkah, dan guidance scale—jadi hasil harus ditafsirkan sebagai directional daripada absolute.

Prompt poster (5 contoh)

“Event poster dengan judul tebal ‘Summer Festival’ di atas, subtitle ‘July 15-17’ di bawah, tiga poin peluru yang mencantumkan aktivitas, dan footer text ‘Register at summerfest.com’”
“Movie poster style dengan teks besar ‘THE LAST HORIZON’ di tengah, teks lebih kecil ‘Coming Soon’ di bawah”
“Workshop announcement dengan heading ‘Learn Python in 5 Days’, detail tanggal dan waktu, nama instruktur, info pendaftaran”
“Concert poster dengan nama band dalam font dekoratif, detail venue, harga tiket”
“Book cover layout dengan nama penulis, judul dalam font serif, subtitle, logo penerbit”

Prompt thumbnail (5 contoh)

“YouTube thumbnail dengan teks besar ‘TOP 5 TIPS’ dan badge kecil yang mengatakan ‘NEW’”
“Product thumbnail yang menampilkan teks ‘50% OFF’ secara menonjol dengan label ‘Limited Time’ yang lebih kecil”
“Course thumbnail dengan judul ‘Advanced AI’ dan indikator kesulitan ‘Expert Level’”
“Recipe thumbnail dengan nama hidangan dan badge ‘Ready in 30 min’”
“News thumbnail dengan headline dan tag ‘BREAKING‘“

“Coffee shop menu board dengan lima item, harga, dan header ‘Daily Specials’”
“Restaurant sign menunjukkan ‘Now Open’ dengan jam bisnis tercantum di bawah”
“Store window sign dengan ‘Grand Opening’ dan informasi tanggal”
“Cafe chalkboard menu dengan tiga bagian dan border dekoratif”
“Retail signage dengan ‘Clearance Sale’ dan diskon persentase”

Prompt konten campuran (5 contoh)

“Infographic dengan judul, tiga langkah bernomor, dan summary box”
“Social media post dengan teks quote yang ditumpangkan pada latar belakang gradient”
“Presentation slide dengan bullet points dan footer text”
“Magazine layout dengan headline, body text preview, dan nomor halaman”
“Advertisement dengan nama produk, feature list, dan call-to-action”

Rubrik Evaluasi

Saya menilai setiap output pada empat dimensi menggunakan skala 1–5. Saya tidak menggunakan otomasi OCR karena saya ingin menangkap masalah tata letak yang terlewat oleh pengenalan karakter murni.

Readability teks (1–5)

Bisakah Anda membaca setiap kata tanpa menyipitkan mata? Apakah karakter terbentuk dengan benar? Apakah huruf buram atau menunjukkan artefak?

Score 5: Setiap karakter cerah dan mudah dibaca. Tidak ada kesalahan ejaan, tidak ada huruf yang menyatu, tidak ada goresan yang hilang.
Score 3: Sebagian besar teks dapat dibaca tetapi menunjukkan masalah kecil—blur ringan, kebingungan karakter sesekali.
Score 1: Teks sebagian besar tidak dapat dibaca atau mengandung kesalahan ejaan utama.

Akurasi tata letak (1–5)

Apakah teks muncul di mana prompt menentukan? Apakah hierarki dihormati—header lebih besar dari body text, jarak yang tepat antara elemen?

Qwen Image 2512 mengesankan saya di sini. Menurut dokumentasi pengujian, ini meningkatkan kualitas tata letak dan komposisi multimodal, yang mengurangi jumlah percobaan ulang untuk desain kompleks.

Fidelity visual (1–5)

Selain teks yang dapat dibaca, apakah gambar keseluruhan terlihat koheren? Apakah font sesuai dengan konteks? Apakah teks terintegrasi secara alami dengan elemen latar belakang?

Di sinilah perbedaan menjadi jelas. Beberapa model merender teks sempurna pada latar belakang yang tidak koheren. Yang lain membuat gambar indah dengan teks rusak.

Estetika keseluruhan (1–5)

Apakah Anda benar-benar menggunakan output ini? Apakah terlihat selesai atau membutuhkan post-processing yang signifikan?

Ringkasan Hasil

Setelah 180 generasi total (20 prompt × 3 model × 3 percobaan), pola muncul yang mengejutkan saya.

Di mana Qwen Image 2512 menang

Tata letak poster dengan 50+ karakter. Ketika saya meminta poster acara dengan beberapa blok teks, Qwen Image 2512 secara konsisten menempatkan elemen dengan benar. Teks tetap cerah bahkan dengan string yang lebih panjang.

Model menekankan kualitas rendering teks dengan karakter yang lebih jelas, spasi baris yang stabil, dan alignment yang dapat diprediksi—terutama berharga untuk visual pemasaran dan draft desain. Saya perhatikan ini terutama dengan konten campuran Cina–Inggris, meskipun pengujian saya berfokus pada Inggris.

Kecepatan sangat diperhatikan. Lima detik per gambar berarti saya dapat melakukan iterasi dengan cepat tanpa kehilangan kualitas. Itu penting ketika Anda menyempurnakan desain melalui beberapa percobaan.

Di mana SDXL menang

Gaya artistik dan iterasi cepat. Ketika prompt menekankan gaya daripada presisi teks—“retro poster aesthetic” atau “vintage sign look”—SDXL memberikan interpretasi artistik yang lebih konsisten. Pendekatan arsitektur dual SDXL dengan model dasar dan refiner memberikan performa estetika yang kuat, terutama untuk konten yang bergaya. Keuntungan ekosistem juga penting: lebih banyak LoRA, lebih banyak opsi ControlNet, lebih banyak sumber daya komunitas.

Kecepatan generasi memberi SDXL keunggulan untuk draft kasar. Tiga belas detik untuk empat gambar mengalahkan menunggu satu menit ketika Anda hanya mengeksplorasi konsep.

Di mana FLUX menang

Teks pendek dengan prompt yang kompleks. Untuk thumbnail dan tanda sederhana, FLUX Dev jarang membuat kesalahan ejaan. Pengujian komunitas menunjukkan FLUX unggul dalam kerning, jarak, dan reproduksi gaya font, menghasilkan teks tajam yang sesuai dengan standar tipografi profesional.

Encoder T5 tampaknya membuat perbedaan. FLUX menggunakan teknologi T5 dari model bahasa Google, yang meningkatkan pemahaman tentang prompt kompleks dan kualitas rendering teks.

Tetapi FLUX kesulitan dengan blok teks yang lebih panjang. Setelah sekitar 30 karakter, akurasi turun secara nyata. Dan pengujian independen mengkonfirmasi bahwa sementara FLUX menunjukkan peningkatan dibandingkan model sebelumnya, output sering kali tidak sesuai dengan contoh sempurna dalam materi pemasaran.

Rekomendasi Berdasarkan Use Case

Jika Anda membuat poster dengan beberapa elemen teks dan membutuhkan tata letak yang andal: Qwen Image 2512 menangani ini lebih baik dari yang saya harapkan. Generasi 28-langkah memberikan kualitas baik tanpa waktu tunggu yang berlebihan.

Jika Anda membuat prototipe desain dan gaya lebih penting daripada teks sempurna: SDXL memberi Anda kecepatan plus fleksibilitas artistik. Anda mungkin akan memperbaiki teks dalam post-production bagaimanapun.

Jika Anda membuat thumbnail atau signage pendek dan akurasi teks sangat penting: FLUX Dev memberikan teks bentuk pendek yang paling bersih. Hanya jangan minta untuk merender paragraf.

Untuk workflow campuran, saya menemukan diri saya menggunakan model berbeda untuk tahap berbeda. SDXL untuk mengeksplorasi arah visual dengan cepat. Qwen Image 2512 ketika kompleksitas tata letak meningkat. FLUX Dev ketika teks akhir perlu sempurna untuk konten yang lebih pendek. Apa yang mengejutkan saya paling banyak bukan model mana yang menang secara keseluruhan—karena tidak ada pemenang tunggal. Ini adalah menyadari bahwa “text-in-image” bukan satu masalah. Ini setidaknya tiga: akurasi karakter, presisi tata letak, dan integrasi estetika. Model berbeda menyelesaikan potongan berbeda.

Prompt benchmark tersedia bagi siapa saja yang ingin memverifikasi temuan ini atau menguji model lain. Saya ingin tahu apakah pola ini bertahan di berbagai konfigurasi hardware atau gaya prompt.

Apakah Anda telah menguji rendering teks baru-baru ini? Model mana yang mengejutkan Anda paling banyak (atau membuat Anda frustrasi paling banyak)? Silakan bagikan hasil dan prompt Anda di komentar!