Panduan Gambar Referensi Z-Image: Pertahankan Komposisi Sambil Mengubah Gaya

Hai, saya Dora. Tahukah kamu? Saya bisa menghasilkan visual yang bagus sekali, lalu gagal mengulanginya lagi nanti. Prompt yang sama, kebutuhan sedikit berbeda, nuansa yang benar-benar berbeda. Saya ingin kendali yang lebih stabil, bukan template, hanya semacam panduan.

Itulah saat saya menghabiskan seminggu mengandalkan panduan gambar referensi Z-Image. Bukan karena mencolok, tapi karena menjanjikan sesuatu yang sederhana: mempertahankan apa yang penting dari gambar awal sambil membiarkan model bereksplorasi. Di bawah ini adalah catatan yang saya inginkan sejak awal, bagaimana rasanya sebenarnya, di mana ia gagal, dan pengaturan-pengaturan diam yang paling banyak berperan.

Apa itu Panduan Gambar Referensi

Panduan gambar referensi (kadang disebut kondisioning img2img atau kondisioning referensi) memungkinkan kamu memberi model gambar nyata bersama prompt teks. Model menggunakan gambar input tersebut sebagai jangkar: gaya, komposisi, palet warna, atau struktur, tergantung bagaimana kamu mengatur parameternya, sambil tetap memperhatikan kata-katamu.

Dalam praktiknya, saya memperlakukan gambar referensi Z-Image sebagai “penentu nada.” Saya tidak memintanya melakukan segalanya. Saya menggunakannya untuk mengurangi variasi di mana saya peduli (pose, palet, tata letak) dan membiarkan prompt menangani sisanya.

Perbedaan dari Pembuatan Gambar-ke-Teks Murni

Saya menjalankan prompt yang sama dengan dua cara, sekali tanpa gambar, sekali dengan referensi. Tanpa gambar, saya mendapat berbagai hasil: beberapa bernuansa gelap, beberapa datar, beberapa tidak dapat digunakan. Ketika saya menambahkan gambar referensi (adegan meja sederhana yang saya foto dengan ponsel), model mempertahankan tata letak meja, cahaya siang yang lembut, bahkan nuansa serat kayu, sambil tetap mengganti objek yang saya minta. Rasanya tidak “terkunci.” Terasa dibatasi dengan sopan.

Teks murni sangat bagus untuk eksplorasi. Tetapi ketika kamu membutuhkan pengulangan (varian kampanye, sudut produk, visual slide), gambar referensi mengurangi keacakan. Beban mental saya paling banyak berkurang di sini: lebih sedikit pengulangan, lebih sedikit memutar-mutar prompt.

Lingkup Pengaruh Gambar Referensi

Referensi dapat mempengaruhi lapisan yang berbeda:

Komposisi global: sudut kamera, penempatan subjek, ruang negatif.
Isyarat gaya: pencahayaan, kepadatan tekstur, suhu warna.
Struktur lokal: siluet, pose, garis luar produk.

Yang mengejutkan saya: pengaruh gambar referensi muncul bahkan ketika saya tidak mendeskripsikan detail tersebut dalam teks. Jika referensimu memiliki cahaya atas yang keras, hasilmu mungkin mewarisi itu kecuali kamu menyeimbangkan dalam prompt (mis., “pencahayaan samping lembut, sorotan redup”).

Penjelasan Detail Parameter “Strength”

Sistem yang berbeda menamakannya dengan berbeda (strength, fidelity, guidance scale untuk gambar, dll.). Maknanya serupa: nilai lebih rendah berpegang pada referensi, nilai lebih tinggi melonggarkan cengkeraman. Jika kamu juga menyetel pengaruh teks, uraian pengaturan CFG Z-Image terbaik ini cocok dipadukan dengan penyesuaian strength.

Berikut bagaimana rentang ini berperilaku untuk saya dalam sekitar 60 generasi. Hasilmu mungkin berbeda, model-model berbeda, tetapi bentuk kurva cenderung sama.

0.2–0.4: Panduan Referensi Kuat (Pertahankan Gambar Asli)

Pada 0.2–0.4, gambar referensi Z-Image bertindak seperti semen basah. Model mempertahankan komposisi, pencahayaan, bahkan tekstur kecil. Jika saya mengubah teks seperti “ganti buku catatan dengan tablet,” biasanya akan dilakukan, tetapi tablet muncul tepat di tempat buku catatan berada. Bagus untuk:

Penggantian warna produk
Perubahan properti kecil
Penyegaran label atau kemasan

Hambatan: artefak muncul jika teks meminta perubahan struktural yang tidak dapat didukung referensi. Contoh: mengubah laptop tertutup menjadi terbuka dalam pose yang sama menghasilkan geometri bengkok pada 0.3. Ketika saya menghadapi hambatan ini, saya menaikkan strength sedikit atau mengganti referensi ke pose yang kompatibel.

0.4–0.6: Area Seimbang

Ini adalah pengaturan harian saya. Pada 0.5, model mempertahankan kerangka adegan tetapi menulis ulang detail dengan lebih sedikit kesulitan. Komposisi terjaga: objek bisa sedikit bergerak: pencahayaan bisa melunak atau menghangatkan. Ini cukup konsisten untuk satu set gambar terkait tanpa semuanya terasa seperti kloning.

Yang membantu: menyatakan apa yang harus dipertahankan. Saya mendapat hasil lebih bersih dengan prompt seperti “pertahankan sudut meja dan cahaya siang: ganti cangkir dengan gelas tumbler: tambahkan tanaman, kedalaman bidang dangkal.” Kombinasi strength menengah + penjaga eksplisit mengalahkan kata sifat yang tidak jelas.

0.6–0.8: Panduan Lemah (Lebih Kreatif)

Di sini, referensi menjadi saran, bukan aturan. Model secara bebas menggeser sudut kamera, menambah atau menghapus elemen, dan kadang memperbarui gaya. Saya menggunakan 0.7 untuk ekspansi papan mood: nuansa yang sama, ruangan baru. Sekitar 30–40% hasil masih mengacu pada palet asli.

Peringatan: rentang ini lebih mungkin salah membaca fitur produk kecil (port, pola jahitan) kecuali kamu memperkuatnya dalam teks atau menyediakan referensi dengan resolusi lebih tinggi. Saya menemukan jahitan aneh pada tas dan bevel yang salah pada perangkat. Bisa diperbaiki, tetapi layak diperiksa.

0.8–1.0: Hampir Abaikan Gambar Referensi

Di atas ~0.8, saya memperlakukan referensi sebagai petunjuk dari pertemuan sebelumnya. Mungkin mengenali warna atau siluet kasar, tetapi tidak banyak yang lain. Kadang itu cukup: jika yang saya inginkan hanyalah “tetap hangat dan bernuansa kayu,” 0.85 membawa saya ke sana sambil mengundang sudut-sudut baru.

Tetapi untuk pekerjaan produksi, saya tidak lama berada di sini. Ini lebih mendekati pembuatan teks murni dengan sedikit dorongan. Ketika saya berakhir di 0.9, itu karena saya memilih referensi yang salah untuk pekerjaan tersebut dan mencoba mengekstrak hanya paletnya. Biasanya lebih baik memilih referensi yang lebih baik dan kembali ke 0.5.

Implementasi API

Saya menguji panggilan API menggunakan pengaturan requests sederhana dan wrapper kecil. Saya lebih suka mulai dari HTTP mentah karena menunjukkan apa yang benar-benar diperlukan, dan mana yang sekadar kebisingan opsional.

Jika kamu baru mengenal kondisioning referensi, ada baiknya memindai dokumen penyedia untuk bagaimana mereka mendefinisikan strength dan default apa yang mereka gunakan. Untuk latar belakang alur kerja serupa, saya menemukan panduan Hugging Face Diffusers tentang image-to-image dan ControlNet sangat membantu. Namanya berbeda, idenya sama.

Metode Melewatkan Parameter “image”

Di sebagian besar API yang saya coba, gambar referensi dapat dilewatkan sebagai salah satu dari:

URL publik (tercepat untuk prototipe, perhatikan kompresi)
Data URI yang dikodekan base64 (andal, sedikit verbose)
Unggahan multipart (bagus untuk file lokal, menjaga EXIF/kualitas dalam kendalimu)

Saya biasanya mengirim PNG atau JPEG berkualitas tinggi sekitar 1024 px di sisi panjang. Terlalu kecil, dan detail memudar: terlalu besar, dan kamu membayar bandwidth tanpa hasil yang lebih baik. Jika API mendukung beberapa gambar referensi, mulailah dengan satu. Menumpuk terlalu banyak sekaligus dapat membatalkan sinyal.

Contoh Kode Python

Berikut pola minimal yang saya gunakan. Ini sengaja dibuat sederhana agar kamu bisa mengadaptasinya. Ganti endpoint dan kunci dengan milik penyeduramu.

暂时无法在飞书文档外展示此内容

Skenario Penerapan Praktis

Transfer Gaya

Saya menggunakan foto produk bersih sebagai referensi dan meminta “potret studio dengan gaya film lembut, halasi, penurunan cahaya perlahan.” Pada 0.45, model mempertahankan siluet produk dan membuat pencahayaan sinematik tanpa mendistorsi tepi. Ketika saya turunkan ke 0.25, ia berpegang pada kilau studio asli, bagus, tetapi kurang bergaya. Jika kamu ingin gaya yang lebih berani, bergeraklah menuju 0.6 dan perkuat dengan 2–3 isyarat gaya spesifik. Lebih dari itu menjadi kebisingan.

Varian Gambar Produk

Untuk penyegaran halaman arahan, saya membutuhkan delapan sudut yang terasa seperti saudara kandung, bukan klon. Saya memotret satu pengaturan rapi dan menggunakannya sebagai gambar referensi Z-Image untuk semua prompt. Strength pada 0.5 memberi saya grain dan white balance yang konsisten di semua foto sambil memungkinkan saya memutar objek, menambahkan tangan, atau mengganti properti latar belakang. Waktu yang dihemat tidak besar per gambar (mungkin dua menit), tetapi kelegaan mental karena menghindari “mengapa yang ini sangat berbeda?” terasa nyata.

Penyempurnaan Diagram Konseptual

Diagram adalah tempat panduan referensi bersinar dengan diam. Saya membuat sketsa tata letak di Figma, kotak-kotak, panah, label longgar, mengekspor PNG, dan menggunakannya sebagai referensi. Dengan strength di 0.4, saya bisa mendeskripsikan gaya (“minimal, garis abu-abu lembut, warna aksen terang”) dan model mempertahankan struktur. Ini menghilangkan satu putaran pengeditan bolak-balik. Jika label salah letak, saya menyesuaikan file Figma asli dan menjalankan ulang alih-alih bergulat dengan prompt.

Praktik Terbaik

Mulailah dengan referensi yang bersih. Luruskan, hapus kekacauan, dan normalisasi eksposur. Model menyalin lebih banyak dari yang kamu kira.
Pilih strength untuk pekerjaan tersebut. 0.5 adalah titik awal yang aman: turun untuk fidelitas, naik untuk eksplorasi.
Katakan apa yang harus dipertahankan. Penjaga singkat dan eksplisit (“pertahankan sudut dan palet”) mengurangi penyimpangan.
Sesuaikan resolusi dengan kebutuhan. Sekitar 1024 px sisi panjang adalah default pragmatis untuk sebagian besar API.
Iterasi dalam langkah-langkah kecil. Ubah satu hal sekaligus (tweaking prompt atau strength) agar kamu bisa melihat sebab dan akibat.
Tetapkan seed saat menyetel. Lepaskan nanti untuk variasi.
Waspadai bias yang menumpuk. Jika kamu terus menggunakan output sebagai referensi berikutnya, gaya bisa membeku. Kembalilah ke referensi asli atau basis netral sesekali.
Untuk tim, simpan trifekta: gambar referensi, teks prompt, dan nilai strength numerik. Dirimu di masa depan akan berterima kasih kepada dirimu di masa lalu.

Jika kamu dikelilingi oleh alat yang menjanjikan keajaiban, inilah yang lebih tenang. Ini tidak akan melakukan selera senimu. Ia hanya menstabilkan tanganmu. Saya menyadarinya pada sesi sore yang santai: meja yang sama, cahaya yang sama, lebih sedikit keraguan. Bukan momen besar, tapi terasa membekas.