Panduan ControlNet Z-Image-Turbo: Depth, Canny, Pose untuk Tata Letak yang Presisi

Hei, teman-teman. Apa kabar? Saya Dora. Pertama kali saya mencoba memandu gambar dengan pose mirip gambar orang-orangan, hasilnya terlihat seperti manekin yang kabur dari toko barang bekas. Tidak buruk-buruk amat, hanya saja… kurang pas. Saya ingin model menghormati struktur tanpa meratakan gaya gambarnya. Jadi pada Januari 2026, saya menghabiskan beberapa sore untuk menguji ControlNet di dalam Z-Image-Turbo pada tugas-tugas nyata yang kecil: mengubah sketsa di atas serbet menjadi render yang rapi, menjaga geometri sebuah bangunan tetap utuh, dan mengubah pose karakter tanpa kehilangan suasana. Panduan ini adalah kumpulan catatan yang saya inginkan ada sejak hari pertama — tenang, praktis, dan cukup untuk membantu Anda memutuskan apakah ini cocok untuk alur kerja Anda.

Apa itu ControlNet?

ControlNet adalah cara untuk mengarahkan model gambar dengan petunjuk struktural — seperti tepi, kedalaman, atau pose manusia — sambil tetap membiarkan model melukis dengan gayanya sendiri. Alih-alih mendorong prompt lebih keras atau menumpuk token negatif, Anda memberikan gambar “kontrol” terpisah yang menangkap kerangka adegan Anda. Model kemudian memadukan struktur dan gaya, idealnya dengan lebih sedikit perjuangan.

Memisahkan Struktur dari Gaya

Dalam praktiknya, saya memikirkannya seperti ini:

Prompt dan checkpoint model menangani gaya (pencahayaan, tekstur, nuansa).
ControlNet menangani struktur (komposisi, kontur, hubungan spasial, pose).

Ketika keduanya berada di jalurnya masing-masing, saya mendapatkan lebih sedikit hasil yang aneh. Jika saya mencoba memaksakan struktur dengan trik prompt, biasanya saya membayarnya dengan proporsi yang ganjil atau pergeseran pada iterasi berikutnya.

Cara Kerja Mode Kontrol

Setiap mode mengekstrak peta yang berbeda dari input Anda:

Mode Depth memperkirakan jarak 3D. Mode ini memberi model pemahaman tentang latar depan dan latar belakang.
Mode Canny mengekstrak tepi yang bersih. Blak-blakan tapi andal.
Mode Pose menemukan keypoint dan kerangka tubuh manusia. Bagus untuk aksi atau konsistensi antar frame.

Z-Image-Turbo (dalam pengujian Januari 2026 saya) mengekspos ini sebagai mode ControlNet yang bisa Anda aktifkan per permintaan. Namanya mungkin berbeda-beda tergantung platform, tapi idenya sama. Jika Anda ingin versi formalnya, makalah ControlNet dan dokumen ControlNet Stable Diffusion AUTOMATIC1111 adalah titik awal terbaik.

Tiga Mode Kontrol Dijelaskan

Mode Depth, Hubungan Spasial 3D

Mode Depth digunakan untuk adegan di mana jarak penting. Arsitektur, interior, lanskap — apa pun di mana “objek ini berada di depan objek itu” perlu dipertahankan. Dalam pengujian saya, depth cukup toleran terhadap perubahan tekstur dan warna, tetapi protektif terhadap jarak kamera dan bentuk-bentuk besar. Ketika saya memintanya untuk tampilan lensa yang berbeda (bidang pandang lebih lebar) tanpa mengubah peta depth, ia menolak — yang saya hargai.

Catatan lapangan: depth dengan senang hati akan mempertahankan perspektif yang canggung jika gambar sumber Anda memilikinya. Jika foto referensi Anda miring, hasilnya pun miring. Saya belajar untuk memperbaiki perspektif terlebih dahulu.

Mode Canny, Deteksi Tepi

Canny adalah yang paling rapi dari ketiganya. Ia mengekstrak tepi dan mengabaikan tekstur interior. Saya menggunakannya ketika saya punya sketsa pensil atau wireframe dan ingin model tetap di dalam garis — secara harfiah. Mode ini mempertahankan blok tipografi, logo, dan garis besar produk lebih baik daripada depth. Tapi bisa rapuh: jika Anda mendorong kekuatannya terlalu tinggi, ia bisa meratakan gaya atau menghasilkan banding warna di sekitar tepi.

Catatan lapangan: tepi dengan kontras rendah kadang-kadang menghilang dalam peta canny. Saya mulai meningkatkan kontras pada sketsa saya sebelum mengirimkannya. Perubahan kecil, lebih sedikit kejutan.

Mode Pose, Keypoint Tubuh Manusia

Mode Pose memetakan posisi sendi dan anggota tubuh. Ini bukan tentang kemiripan wajah, melainkan tentang ritme tubuh — ke mana tangan pergi, tekukan lutut, kemiringan bahu. Ketika saya membuat mock-up beat karakter untuk storyboard, pose memungkinkan saya menjaga aksi tetap terbaca sambil mengubah pakaian, pencahayaan, dan suasana.

Catatan lapangan: tangan membaik, tapi hanya dalam batas pose itu sendiri. Jika kerangka menyarankan lima jari pendek dalam satu kelompok, model tidak akan menciptakan tangan yang anggun. Pose mempertahankan niat: ia tidak memperbaiki anatomi dengan sendirinya.

Kapan Menggunakan Setiap Mode

Depth: Arsitektur, Lanskap

Gunakan ketika posisi kamera dan skala penting.
Bagus untuk: bangunan, interior, foto produk-dalam-lingkungan.
Lewati jika Anda hanya peduli pada linework yang tajam: depth bisa terlalu lembut untuk logo yang presisi.

Yang saya lihat: depth memandu penempatan cahaya secara halus. Jika sebuah dinding lebih dekat dalam peta depth, model menghormati cara cahaya jatuh padanya. Saya tidak perlu terlalu spesifik tentang pencahayaan dalam prompt.

Canny: Sketsa, Bentuk Presisi

Gunakan ketika Anda membutuhkan siluet yang bersih dan keselarasan yang andal.
Bagus untuk: mock-up UI, kemasan, line-art ke warna.
Perhatikan: gaya yang terlalu terkekang dan shading datar jika kekuatan terlalu tinggi.

Yang saya lihat: canny mempertahankan kotak tipe dan jarak ikon lebih baik dari mode lain mana pun. Saya masih tidak akan menetapkan tipe final di AI, tapi untuk ideasi tata letak ia mengurangi gesekan.

Pose: Karakter, Adegan Aksi

Gunakan ketika bahasa tubuh lebih penting daripada wajah yang tepat.
Bagus untuk: keyframe, komik, pose fashion.
Tidak ideal untuk: kemiripan ketat seseorang tanpa alur kerja referensi wajah.

Yang saya lihat: pose menstabilkan urutan multi-shot. Saya bisa mempertahankan beat aksi yang sama sambil menjelajahi pengaturan dan palet yang berbeda. Lebih sedikit perjuangan mental.

Implementasi API

Saya menguji endpoint ControlNet Z-Image-Turbo pada akhir Januari 2026 dengan sekitar 30 permintaan per mode. Saya menjaga input tetap kecil (768 px) agar cepat dan konsisten.

Pemilihan Parameter Mode

Sebagian besar API mengekspos sesuatu seperti:

control_mode: “depth” | “canny” | “pose”
control_image: peta atau gambar sumber yang dikonversi server menjadi peta
prompt / negative_prompt: panduan gaya dan konten
seed: untuk pengulangan hasil

Jika platform Anda menawarkan ekstraksi peta otomatis, Anda bisa mengirim gambar normal dan menetapkan control_mode: server akan menghasilkan peta depth/canny/pose.

Pengaturan Kekuatan (Mulai dari 0.6)

Kekuatan kontrol menentukan seberapa ketat struktur diberlakukan. Baseline saya:

0.6 untuk pass pertama (seimbang)
0.4 ketika saya ingin lebih banyak kebebasan gaya
0.8 ketika saya membutuhkan presisi hampir terkunci (logo, render kritis-perspektif)

Pada 1.0, saya sering melihat kekakuan. Pada 0.2, kontrol hampir tidak ada. 0.6 terasa seperti titik manis.

Contoh Kode Python

Di bawah ini adalah contoh minimal. Nama parameter Anda mungkin berbeda — periksa dokumentasi penyedia Anda. Polanya konsisten di sebagian besar wrapper REST yang pernah saya gunakan.

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # placeholder

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sunlit modern living room, warm wood, soft textiles, filmic lighting",

"negative_prompt": "distorted furniture, blown highlights",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" or "pose"

"control_strength": 0.6,

}


files = {
# Send a single reference: server extracts the chosen map

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

Jika Anda membutuhkan detail lebih lanjut tentang peta kontrol yang mendasarinya, dokumen ControlNet di AUTOMATIC1111 dan MMPose dari OpenMMLab (untuk pose) menjelaskan sinyal-sinyal tersebut dengan baik.

Contoh Alur Kerja

Sketsa ke Karya Seni Jadi

Keluhan kecil yang memulai semua ini: mengubah sketsa pensil yang longgar menjadi sesuatu yang layak ditampilkan biasanya menghabiskan satu malam. Dengan canny di 0.6, saya mengirim hasil scan sketsa, menambahkan prompt gaya singkat (tinta-dan-cuci, palet redup), dan membiarkannya membuat variasi. Pass pertama sedikit terlalu bersih, hampir steril. Menurunkan kekuatan ke 0.45 mengembalikan sedikit goyangan dari garis-garis asli, yang terasa lebih jujur. Waktu yang dihemat: mungkin 30–40 menit, tapi kemenangan yang lebih besar adalah mental — jauh lebih sedikit berkutat dengan mask.

Gesekan: garis-garis tipis menghilang dalam peta tepi sampai saya meningkatkan kontras dalam scan. Setelah itu, konsistensinya bertahan.

Visualisasi Arsitektur

Saya mencoba mode depth pada tata letak ruang tamu sederhana dari foto ponsel (22 Januari 2026). Tujuannya: mempertahankan posisi sofa dan jendela, menjelajahi material. Dengan control_strength di 0.7, model menghormati posisi dinding dan kisi jendela, sambil menukar warna kayu dan tekstur kain. Ketika saya mendorong ke 0.85, material mulai terlihat terlalu terikat — terlalu literal, kurang atmosferik. Saya menetap di 0.6 atau 0.65 untuk sebagian besar foto interior.

Kejutan kecil: menambahkan petunjuk lensa dalam prompt (“35mm, shallow depth of field”) memberikan hasil yang kurang dari yang saya harapkan karena peta depth yang mengendalikan segalanya. Ketika saya ingin nuansa kamera yang berbeda, saya mengambil ulang foto referensi dari sudut baru. Kurang cerdik, tapi lebih andal.

Seni Konsep Karakter

Mode Pose membantu saya mengiterasi postur berlari di lima frame. Karakter yang sama, suasana yang berbeda. Saya menggunakan gambar orang-orangan cepat dari alat pose sebagai gambar kontrol, lalu melapisi prompt gaya — pakaian kasual jalanan, cahaya latar, senja. Tangan membaik di setiap run tapi tetap membutuhkan sentuhan akhir. Saya tidak melawannya. Untuk pekerjaan internal, tangan yang terbaca sudah cukup; untuk karya rilis, saya akan menggabungkan jari dari pass yang lebih bersih atau melukisnya.

Yang bertahan: lengkungan tubuh dan arah pandangan tetap konsisten. Itu membuat set terasa seperti sebuah urutan, bukan lima gambar yang tidak berhubungan.

Mengapa ini penting bagi saya: ControlNet mengurangi kebutuhan untuk micromanagement prompt ketika struktur adalah bagian yang sulit. Ini tidak menghilangkan penilaian. Ia hanya memindahkan perhatian ke bagian-bagian yang layak diperhatikan.

Siapa yang mungkin menyukainya:

Anda menyimpan foto referensi kasar di sekitar Anda dan ingin foto tersebut benar-benar memandu hasil.
Anda menggambar dengan longgar dan ingin render yang bersih tanpa kehilangan gestur.
Anda membuat storyboard dan membutuhkan pose agar tetap terbaca sementara gaya berubah.

Siapa yang mungkin tidak:

Anda menginginkan kemiripan yang tepat tanpa langkah tambahan (Anda akan membutuhkan alur kerja wajah/ID).
Anda tidak suka melakukan pra-pemrosesan atau mengubah gambar referensi.

Jika Anda penasaran, mulailah dari hal kecil: pilih satu mode, atur kekuatan ke 0.6, dan jalankan input yang sama lima kali sambil hanya mengubah prompt. Perhatikan apa yang berubah dan apa yang menolak untuk bergerak. Penolakan itu — itulah struktur Anda yang berbicara.

Saya masih menyimpan sebuah catatan di meja saya: “Perbaiki referensinya, bukan promptnya.” Itu menyelamatkan saya dari berdebat dengan model ketika gambar tersebut sebenarnya sedang mengungkapkan kebenaran.