Z-Image-Base vs Z-Image-Turbo: Perbandingan Kualitas, Keberagaman, dan Biaya

Hei, guys. Saya Dora. Haha, semuanya bermula dari masalah kecil pada Selasa malam: sebuah gambar banner yang terus terlihat sedikit buram padahal saya butuh teks yang bersih dan tepi yang tajam. Saya sudah berganti-ganti antara Z-Image-Base dan Z-Image-Turbo selama beberapa minggu, kebanyakan berdasarkan perasaan. Malam itu, perasaan saja tidak cukup. Jadi saya sisihkan satu jam, lalu satu jam lagi, lalu sisa minggu itu, dan menjalankan prompt yang sama melalui kedua model dengan beberapa batasan sederhana.

Ini bukan ulasan. Ini adalah apa yang saya perhatikan selama mengerjakan pekerjaan rutin: header slide, gambar media sosial ringan, lembar konsep untuk halaman produk, dan beberapa storyboard. Jika Anda sudah kewalahan dengan terlalu banyak alat dan hanya ingin tahu di mana Z-Image-Base vs Z-Image-Turbo benar-benar berbeda, ini versi singkat dan cermatnya.

Ikhtisar Perbandingan Fungsi

Perbandingan Dukungan CFG

Saya menjaga prompt tetap identik dan hanya memvariasikan classifier-free guidance (CFG). Dengan Base, meningkatkan CFG dari 5 ke 9 memperketat komposisi dan tetap setia pada prompt tanpa mematikan gaya. Di angka 11+, Base mulai terlihat sedikit terlalu terpaku — elemen menjadi kaku, tapi tidak rusak.

Turbo berperilaku berbeda. Di bawah CFG 6, ia melenceng: gambar bagus, tetapi terkadang terlalu “kreatif” untuk pekerjaan klien. Dari 7 ke 8, Turbo langsung pas — alignment bagus, lebih sedikit pengembaraan — tetapi melewati 9 ia cepat menjadi rapuh. Saya melihat highlight yang pudar dan shadow yang terpotong, seolah model terlalu mengoreksi untuk menyenangkan kata-kata daripada mata. Catatan saya dari hari Rabu: “Titik manis Turbo: 7–8. Base: 6–9, lebih toleran.”

Mengapa ini penting: jika Anda beriterasi dengan menggeser CFG, Base memberi Anda rentang yang lebih luas dan tenang. Turbo ingin Anda memilih jalur lebih awal dan tetap di sana.

Dukungan Negative Prompt

Saya tidak terlalu bergantung pada negative prompt, tetapi mereka membantu memangkas detail aneh, tangan ekstra, logo tersasar, kekacauan teks. Base menghormati negative ringan (“no watermark,” “no border”) tanpa merusak detail lainnya. Rasanya seperti mengurangi dengan bersih.

Turbo mendengar negative dengan keras. “No text” terkadang melembutkan bentuk-bentuk mirip glif di dekatnya yang sebenarnya saya inginkan (pola, rambu di kejauhan). Ketika saya melembutkan negative-nya (“minimize text artifacts”), Turbo berperilaku baik. Efeknya mengingatkan saya untuk menulis negative dengan tingkat intensitas yang sama dengan gaya yang diinginkan, terutama dengan Turbo.

Panduan Gambar Referensi

Saya menguji dua mode: inspirasi longgar (palet warna dan petunjuk tata letak) dan pencocokan mendekati (mock-up produk di mana proporsi penting). Dengan Base, gambar referensi bertindak seperti tangan yang mantap. Ia meminjam palet dan tata letak kasar sambil memberi ruang untuk gaya yang didorong prompt. Bagus untuk mood board.

Turbo, dengan referensi yang sama, cenderung meniru. Untuk tugas pencocokan mendekati, itu membantu: sudut produk dan pencahayaan mengikuti referensi lebih ketat, bahkan pada langkah rendah. Tetapi untuk pekerjaan eksploratif, keengganan Turbo untuk mengikuti terkadang meratakan variasi antar percobaan.

Jika alur kerja Anda menggunakan referensi sebagai panduan, Turbo mudah diarahkan. Jika Anda menginginkan kontrol struktural yang lebih ketat di luar panduan referensi sederhana, panduan singkat Z-Image-Turbo ControlNet ini menjelaskan cara mengunci komposisi dengan lebih presisi.

Perbedaan Langkah Sampling

Saya menggunakan default yang tercatat dalam dokumentasi dan UI: Base pada 50 langkah, Turbo pada 8. Dirilis oleh Tongyi-MAI dari Alibaba, Z-Image-Turbo hanya menggunakan 8 langkah sampling melalui distilasi Decoupled-DMD untuk mencapai latensi sub-detik pada GPU pusat data sambil muat dalam kartu konsumen 16 GB VRAM. Saya mencoba menurunkan Base ke 30 dan menaikkan Turbo ke 12. Base pada 30 langkah kehilangan beberapa mikro-kontras pada kain dan dedaunan — tidak dramatis, tetapi cukup terlihat dalam ekspor ukuran cetak. Turbo pada 12 langkah sedikit meningkatkan stabilitas (lebih sedikit glitch tepi kecil) tetapi tidak banyak mengubah komposisi.

Dalam praktiknya: jika Anda menghargai “10% terakhir” dari detail, Base pada 50 langkah terasa sepadan. Jika Anda biasanya menggunakan kanvas lebih kecil atau crop media sosial, 8 langkah Turbo sudah cukup — lebih cepat dari otak saya bisa berpindah konteks, yang punya nilainya sendiri.

Perbandingan Kualitas Gambar

Kekayaan Detail

Saya menjalankan beberapa micro-test: tekstur logam, helai rambut melawan cahaya latar, dan teks serif ukuran sedang. Base secara konsisten menghasilkan mikro-detail yang lebih kaya. Logam memiliki anisotropi yang lebih jelas: rambut terlihat kurang buram: bayangan mempertahankan gradien halus alih-alih banding. Pada kanvas yang lebih besar (2048 px), Base bertahan lebih baik saat saya zoom ke 100%.

Turbo tidak buruk — ia hanya terasa disetel untuk “bagus sekilas pandang.” Pada ukuran ponsel, gambarnya terlihat tajam dan selesai. Dari dekat, saya melihat sedikit penghalusan, dan elemen kecil menyatu lebih awal. Untuk gambar hero web dan slide, Turbo sudah cukup. Untuk cetak atau crop ketat, Base menang.

Keragaman Gaya

Saya mengharapkan Base menjadi generalis, tetapi Turbo mengejutkan saya dalam sesi singkat. Ia berpindah gaya dengan cepat melalui perubahan prompt kecil — foto ke line-art ke watercolor lembut — dengan sedikit carryover. Itu membantu ketika saya menginginkan variasi cepat untuk sebuah deck.

Namun, dalam sesi lebih panjang, Base mencakup lebih banyak wilayah. Perubahan frasa kecil menghasilkan tampilan segar tanpa kehilangan kualitas. Catatan Kamis saya: “Base mengeksplorasi lebih dalam, Turbo mengeksplorasi lebih cepat.” Jika Anda suka berkelana dan menyempurnakan, Base memberi hadiah bagi yang sabar. Jika Anda butuh spektrum dengan cepat, Turbo membuat putaran pertama yang meyakinkan.

Kemampuan Rendering Teks

Tidak ada model yang merupakan renderer teks khusus, dan saya tidak akan menggantungkan kampanye padanya. Meski begitu, saya mencoba kata-kata pendek (3–6 huruf), kontras tinggi, font sederhana.

Base menangani kata-kata huruf kapital sederhana dengan lebih andal, terutama pada 50 langkah. Saya bisa memaksanya menghasilkan LOGO atau SALE yang cukup layak pada 1024 px. Turbo cenderung membengkokkan atau menghilangkan huruf, terutama pada ukuran yang lebih kecil. Ketika saya menaikkan Turbo ke 12 langkah dan menyederhanakan prompt, hasilnya membaik tetapi tidak menyamai Base.

Solusi yang membantu pada keduanya: tambahkan blok latar belakang solid tipis di belakang area teks dalam deskripsi prompt. Tampaknya mengurangi kecenderungan model untuk menstilisasi bentuk huruf. Catatan praktis: untuk aset apa pun di mana teks menjadi kunci, saya masih menambahkan teks nyata setelah generasi.

Kecepatan dan Keterlambatan

Base: ~3–5 detik (50 langkah)

Diukur pada koneksi kabel, malam hari di CET. Base rata-rata 3,6–4,8 detik untuk gambar 1024 px pada 50 langkah di ~120 generasi. Lonjakan ke 6–7 detik terjadi dalam satu jendela waktu (sekitar pukul 9 malam) tetapi segera stabil. Menunggu tidak mengganggu saya karena biasanya saya mengantri prompt dan meninjau sekaligus.

Dua catatan kecil:

Kecepatan yang dirasakan penting. Timing Base yang lebih stabil memungkinkan saya masuk ke ritme: tulis → antri → minum teh → tinjau. Ritme itu mengurangi kelelahan berpindah konteks.
Jika saya turun ke 30 langkah, saya menghemat ~1,2 detik rata-rata, tetapi penurunan kualitasnya tidak sepadan untuk aset yang mungkin saya gunakan kembali.

Turbo: <1 detik (8 langkah)

Turbo mengejutkan. Sebagian besar gambar muncul dalam 400–800 ms pada 1024 px, bahkan selama jam-jam lebih sibuk. Kecepatannya mendorong saya untuk beriterasi saat sedang menulis prompt. Saya menyesuaikan frasa dan mendapat umpan balik hampir instan.

Tidak selalu menghemat waktu sebenarnya — terkadang saya lebih banyak klik karena bisa — tetapi memang mengurangi beban mental untuk pekerjaan “menemukan arah”. Untuk storyboard cepat atau thumbnail, sensasi hampir instan itu membuat prosesnya lebih ringan. Satu trade-off: hasil cepat mendorong saya lebih sering menerima “cukup bagus,” yang baik untuk draf dan berisiko untuk final.

Analisis Biaya

Base: $0,01/gambar

Seharga satu sen per gambar, Base menghabiskan $1,11 untuk satu set 111 gambar dalam batch uji ini. Jika saya memproduksi lembar konsep mingguan (katakanlah 400 gambar), itu sekitar $4. Biaya nyata dengan Base lebih sedikit tentang uang dan lebih tentang kesabaran — setiap gambar membutuhkan beberapa detik tambahan, yang bertambah jika Anda mengendarai prosesnya.

Turbo: $0,005/gambar

Setengah sen per gambar terdengar sepele sampai Anda mengalikannya. 250 variasi cepat saya untuk satu slide deck menghabiskan $1,25. Jika Anda membuat prototipe fitur di dalam produk (banyak shot uji), Turbo lebih hemat untuk anggaran dan CI pipeline.

Membandingkan Z-Image-Base vs Z-Image-Turbo murni berdasarkan biaya terlalu sederhana, tetapi polanya jelas: Turbo lebih murah untuk eksplorasi; Base masih cukup murah untuk penyelesaian. Yang membantu saya: lakukan 80% pengembaraan dengan Turbo, lalu beralih ke Base untuk yang akan disimpan.

Pohon Keputusan Pemilihan

Inilah jalur pemilihan yang saya temukan sendiri menggunakannya pada hari Jumat. Ini bukan universal, hanya yang membuat saya tenang dan terus bergerak.

Apakah saya butuh arah dalam waktu kurang dari satu menit? Turbo. Saya akan menulis prompt yang lebih longgar, set CFG ke 7–8, dan melihat sekilas 6–10 hasil dengan cepat.
Apakah saya butuh detail yang tahan pada crop 100% atau cetak? Base. Pertahankan 50 langkah, CFG 6–9, dan biarkan ia merender tanpa multitasking.
Apakah saya menggunakan gambar referensi sebagai panduan (cocokkan sudut, pencahayaan, proporsi)? Turbo. Ia mengikuti lebih ketat.
Apakah saya menggunakan referensi sebagai suasana (warna, nuansa, tata letak kasar)? Base. Ia memberi ruang untuk bernapas.
Apakah teks dalam gambar penting? Base. Lalu saya masih menambahkan teks nyata setelahnya.
Apakah saya dibatasi biaya atau kuota dan hanya butuh banyak variasi yang aman? Turbo. Hemat anggaran dan cepat untuk dibuang.
Apakah saya beriterasi dengan negative yang halus (menghapus satu hal tanpa menumpulkan yang lain)? Base. Ia mengurangi dengan lebih lembut.

Jika Anda lebih suka aturan satu pandang untuk Z-Image-Base vs Z-Image-Turbo: Turbo untuk menemukan; Base untuk menyimpan. Tidak selalu, tetapi cukup sering sehingga saya mempercayainya.

Pengamatan kecil terakhir: kecepatan menggoda saya untuk memutuskan lebih awal. Kualitas mengundang saya untuk melihat dua kali. Beberapa hari saya butuh dorongan; hari lain saya butuh jeda. Pekerjaan Anda mungkin condong ke satu arah. Jika Anda berada di tengah-tengah, mulailah dengan Turbo untuk membuat sketsa dan akhiri dengan Base untuk berkomitmen.