Z Image Base Kini Tersedia di WaveSpeedAI

Memperkenalkan Z-Image Base: Model Fondasi Text-to-Image Terbaik untuk Kontrol Kreatif

Lanskap AI text-to-image baru saja mendapat pesaing yang kuat. Z-Image Base, model fondasi dengan 6 miliar parameter dari Tongyi Lab (Tongyi-MAI) Alibaba, kini tersedia di WaveSpeedAI. Tidak seperti saudara distilnya Z-Image Turbo, model lengkap ini memberikan dukungan CFG (Classifier-Free Guidance) dan kemampuan negative prompting yang lengkap—memberikan pembuat konten kontrol presisi yang mereka butuhkan untuk generasi gambar berkualitas profesional.

Apa itu Z-Image Base?

Z-Image Base adalah versi fondasi non-distil dari keluarga model Z-Image Alibaba yang inovatif. Sementara Z-Image Turbo menukar kontrol pengguna dengan kecepatan kilat melalui distilasi, Z-Image Base mempertahankan kemampuan generatif penuh yang membuat kontrol kreatif berbutir halus dimungkinkan.

Dibangun di atas arsitektur S3-DiT (Single-Stream Diffusion Transformer) yang inovatif, Z-Image Base memproses token teks dan gambar dalam urutan terpadu daripada menggunakan aliran terpisah. Pendekatan arsitektur ini meningkatkan pemanfaatan parameter dan menyederhanakan penyelarasan lintas modal, menghasilkan kepatuhan prompt yang luar biasa dan kualitas output yang fotorealis.

Keluarga model ini menciptakan gelombang di komunitas AI segera setelah peluncuran, melampaui 500.000 unduhan dalam 24 jam dan dengan cepat mencapai puncak daftar trending Hugging Face. Z-Image memperoleh perbedaan menjadi model open-source #1 di Leaderboard Text-to-Image Artificial Analysis—pencapaian luar biasa untuk model dengan 6 miliar parameter yang bersaing dengan sistem berkali-kali lebih besar.

Fitur Utama

Dukungan CFG Penuh dan Negative Prompting

Tidak seperti model distil yang “membuat” panduan selama pelatihan, Z-Image Base memberikan kontrol classifier-free guidance yang lengkap. Ini berarti Anda dapat:

Menggunakan negative prompt untuk secara eksplisit mengecualikan elemen yang tidak diinginkan seperti “buram, terdistorsi, kualitas rendah”
Menyesuaikan skala panduan untuk menyeimbangkan kepatuhan prompt dengan variasi kreatif
Mencapai kontrol presisi atas proses generasi yang model distil tidak dapat menawarkan

Panduan Gambar Referensi

Berikan gambar referensi opsional untuk mempengaruhi komposisi, gaya, atau subjek output yang dihasilkan. Parameter kekuatan (0-1) memungkinkan Anda menyetel dengan presisi seberapa banyak referensi mempengaruhi hasilnya:

Nilai lebih rendah (0,2-0,4): Output mengikuti referensi dengan erat
Nilai menengah (0,5-0,7): Perpaduan seimbang antara referensi dan prompt
Nilai lebih tinggi (0,8-1,0): Prompt mendominasi, referensi berfungsi sebagai inspirasi longgar

Siap untuk Fine-Tuning

Z-Image Base dirilis khusus untuk membuka kunci fine-tuning yang didorong komunitas dan pengembangan kustom. Latih adaptor LoRA kustom untuk mengkodekan gaya visual spesifik, karakter, atau estetika merek ke dalam bobot yang dapat digunakan kembali. Ini menjadikannya fondasi ideal untuk membangun sistem generasi gambar yang dipersonalisasi.

Rendering Teks Bilingual

Salah satu kemampuan menonjol Z-Image adalah rendering teks bilingual yang kuat dalam bahasa Inggris dan Cina. Tolok ukur industri menunjukkan ia mengungguli banyak pesaing dalam poster dan tugas generasi teks-dalam-gambar.

Nilai Luar Biasa

Hanya dengan $0,01 per gambar, Z-Image Base memberikan kualitas premium dengan sebagian kecil dari biaya tipikal—sempurna untuk generasi volume tinggi, prototyping cepat, dan eksperimen kreatif.

Kasus Penggunaan

Pembuatan Konten Profesional

Tim pemasaran dapat menghasilkan citra merek yang konsisten dengan kontrol presisi atas gaya dan komposisi. Panduan gambar referensi memastikan konsistensi visual di seluruh kampanye, sementara negative prompting menghilangkan masalah kualitas umum.

Pengembangan Model Kustom

Peneliti dan pengembang dapat menggunakan Z-Image Base sebagai fondasi untuk model fine-tuned khusus. Arsitektur non-distil mempertahankan semua hook yang diperlukan untuk pelatihan LoRA dan adaptasi kustom.

Prototyping Cepat

Desainer produk dan direktur kreatif dapat dengan cepat mengulang konsep visual dengan biaya minimal. Hasilkan puluhan variasi untuk mengeksplorasi arah berbeda sebelum berkomitmen pada desain akhir.

Generasi Berdasarkan Gaya

Seniman dan ilustrator dapat menggunakan gambar referensi untuk mempertahankan estetika konsisten di seluruh seri. Kontrol kekuatan memberikan kalibrasi presisi antara mengikuti referensi dan memungkinkan kebebasan kreatif.

Produksi Konten Massal

Pembuat konten, tim e-commerce, dan manajer media sosial dapat menghasilkan volume gambar yang besar dengan terjangkau. Kombinasi biaya per-gambar rendah dan kualitas tinggi membuat Z-Image Base ideal untuk menskalakan produksi konten visual.

Memulai di WaveSpeedAI

Menggunakan Z-Image Base melalui WaveSpeedAI sangat mudah. Berikut cara menghasilkan gambar pertama Anda menggunakan Python SDK:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/z-image/base",
    {
        "prompt": "A majestic snow leopard perched on a Himalayan cliff at golden hour, photorealistic, dramatic lighting",
        "negative_prompt": "blurry, distorted, low quality, oversaturated"
    },
)

print(output["outputs"][0])

Untuk panduan gambar referensi, tambahkan parameter gambar:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/z-image/base",
    {
        "prompt": "Professional headshot in the same style",
        "image": "https://your-reference-image.jpg",
        "strength": 0.6
    },
)

print(output["outputs"][0])

WaveSpeedAI memberikan Z-Image Base dengan karakteristik performa yang Anda harapkan: inferensi cepat, tanpa cold start, dan penetapan harga transparan. Baik Anda menghasilkan satu gambar uji coba atau menjalankan ribuan melalui saluran otomatis, Anda akan mendapatkan hasil yang konsisten dan andal.

Tips Pro untuk Hasil Terbaik

Jadilah deskriptif dengan prompt Anda: Z-Image memproses token teks dan gambar dalam satu aliran, jadi struktur kalimat penting. Gunakan hubungan spasial yang jelas (“di sebelah,” “di belakang,” “memegang”) untuk memandu komposisi.
Manfaatkan negative prompt: Karena Z-Image Base mendukung CFG penuh, gunakan negative prompt secara strategis. Penambahan umum seperti “buram, terdistorsi, anggota ekstra, tanda air” dapat secara signifikan meningkatkan kualitas output.
Mulai dengan strength 0,6 untuk referensi: Saat menggunakan gambar referensi, 0,6 memberikan keseimbangan yang baik. Sesuaikan ke bawah untuk pencocokan referensi yang lebih dekat, ke atas untuk lebih banyak kreativitas prompt.
Gunakan seed yang sama untuk iterasi: Pertahankan seed tetap sama sambil mengubah prompt untuk mengulangi komposisi spesifik tanpa memulai dari awal setiap kali.
Aktifkan Prompt Enhancer: Alat peningkatan prompt built-in dapat secara otomatis meningkatkan deskripsi Anda untuk hasil yang lebih baik.

Keunggulan Z-Image

Dalam lanskap yang semakin didominasi oleh model distil yang mengorbankan kontrol untuk kecepatan, Z-Image Base menonjol dengan mempertahankan apa yang dibutuhkan pembuat serius: dukungan CFG penuh, negative prompting, dan kemampuan fine-tuning. Dikombinasikan dengan kinerjanya yang kompetitif pada tolok ukur utama dan penetapan harga yang sangat terjangkau, ia mewakili opsi yang menarik untuk siapa pun yang memerlukan kontrol presisi atas citra yang dihasilkan AI mereka.

Siap mengalami kekuatan dan presisi Z-Image Base? Coba sekarang di WaveSpeedAI dan temukan mengapa model dengan 6 miliar parameter ini menciptakan gelombang di komunitas generasi gambar AI.