WAN 2.5 ComfyUI Workflow: Best Node Graph + Settings for Stable Results

Halo, teman! Saya Dora. Hari itu, saya sedang menjahit loop produk pendek untuk demo, dan setup biasa saya terus bergeser, lengan karakter berubah, latar belakang berdenyut, gerakan goyah di tepinya. Tidak mengerikan, hanya mengganggu. Saya menginginkan alur kerja video yang berperilaku seperti tangan yang stabil, bukan permainan menebak-nebakan.

Saya menghabiskan beberapa malam bulan ini (Jan 2026) menjalankan WAN 2.5 dengan bersih di ComfyUI. Tidak ada yang meriah. Saya menjaga grafik tetap minimal, mengunci beberapa pengaturan, dan menguji cara berbeda untuk menjaga gerakan tetap stabil tanpa menghilangkan bagian yang menarik. Inilah yang terbentuk dengan baik, dan di mana tidak. Jika Anda mencari “WAN 2.5 ComfyUI” karena menginginkan sesuatu yang dapat dikerjakan, bukan sekadar pertunjukan, ini adalah versi yang akan saya berikan kepada Anda sambil minum kopi.

Grafik node minimal

Saya mencoba beberapa grafik yang luas terlebih dahulu. Mereka terlihat kuat di kanvas dan terasa rapuh dalam praktiknya. Setup paling andal untuk WAN 2.5, setidaknya di mesin saya (RTX 4090, 24 GB VRAM), adalah membosankan dengan sengaja.

Yang saya akhirnya gunakan:

Pemuatan model untuk WAN 2.5 (bobot resmi + konfigurasi: dimuat sekali saat startup)
Penyandi teks (satu prompt, satu prompt negatif)
Node seed (seed tunggal, bukan per-frame)
Sampler untuk video (sampler WAN atau sampler video yang kompatibel di ComfyUI)
VAE (dekode di akhir: tanpa re-encode di tengah-grafik)
Simpan video

Itu saja. Tidak ada upscaler ekstra, tidak ada adaptor panduan, tidak ada cabang denoise. Bukan karena yang itu buruk, tetapi karena saya ingin melihat apa yang dilakukan WAN 2.5 tanpa bantuan. Sisi positifnya jelas: lebih sedikit bagian bergerak, lebih sedikit kejutan. Ketika sesuatu berkedip, saya tahu itu bukan dari node eksternal.

Jika Anda memulai dari nol, saya akan menginstal ComfyUI fresh, tambahkan ComfyUI Manager untuk manajemen node yang lebih mudah, kemudian tambahkan paket node WAN 2.5 dari sumbernya yang resmi. Setelah itu, tolak godaan untuk mendekorasi grafik. Dapatkan satu klip 3-4 detik yang render bersih dengan resolusi sederhana. Kemudian tambahkan kompleksitas jika Anda masih membutuhkannya.

Baseline pengaturan

Saya menguji beberapa baseline dan mengatur nilainya naik atau turun hingga klip berhenti bergoyang.

Titik awal stabil saya:

Resolusi: 896×504 (16:9). Dapat dibagi 16, ringan di VRAM, cukup baik untuk menilai gerakan.
Durasi: 48 frame pada 12 fps (~4 detik). Cukup lama untuk mendeteksi drift, cukup pendek untuk beriterasi.
Langkah: 28-32. Di bawah 24 cenderung mengaburkan gerakan: di atas ~36 tidak membeli saya banyak.
Panduan CFG: 4.0-6.0. Saya sebagian besar duduk di 5.0. Nilai yang lebih tinggi mendorong gaya tetapi meningkatkan micro-flicker.
Sampler: Euler atau DPM++ 2M SDE (build kompatibel video). DPM++ terasa sedikit lebih stabil frame-to-frame.
Kekuatan denoise: 0.85-0.9 untuk text-to-video. Jika conditioning pada gambar, saya turunkan ke 0.7-0.8.
Seed: tetap. Seed yang sama di seluruh klip.

Pada 4090, baseline ini render ~4 detik dalam sekitar 2-3 menit. Pada 4080 Super yang saya pinjam untuk sore hari, itu lebih dekat ke 3-4 menit. Ketika saya meningkatkan ke 1024×576, waktu render naik ~20-30% dan penggunaan VRAM bergeser melewati 17 GB.

Catatan kecil: jika Anda mengejar fps yang lebih tinggi untuk playback (katakanlah 24), saya menemukan hasil yang lebih baik dengan generate pada 12 fps dan interpolasi nanti daripada mencoba render langsung pada 24. Sampler memiliki waktu yang lebih mudah untuk tetap konsisten.

Strategi konsistensi

Menjaga penampilan tetap konsisten pada dasarnya adalah tiga tuas: seed, conditioning, dan seberapa agresif Anda mendorong prompt.

Apa yang bekerja untuk saya:

Kunci seed dan jangan sentuh. Dalam satu run, saya secara tidak sengaja mengaktifkan seeding per-frame, chaos lemari pakaian instan.
Jaga prompt tetap pendek. WAN 2.5 tampaknya lebih senang dengan kata benda yang jelas dan petunjuk gaya yang lembut daripada kata sifat yang bertumpuk. “Sebuah perahu kertas di jalan hujan, cahaya lembut, warna yang teredam” memberikan hasil lebih baik daripada satu paragraf.
Gunakan gambar referensi hanya jika Anda membutuhkannya. Image conditioning membantu menganker desain karakter (rambut, outfit) tetapi kadang over-constrain gerakan. Ketika saya menggunakannya, saya menurunkan kekuatan denoise dan CFG oleh ~0.5.
Prompt negatif dapat menenangkan flicker: “pencahayaan keras, highlight berkilau, lens warping.” Jangan masukkan semuanya yang Anda tidak suka: 3-6 item sudah cukup.

Saya juga mencoba cabang IP-Adapter untuk mengunci pose di seluruh frame. Ini membantu untuk adegan “still-life dengan gerakan kecil” (uap, riak), tetapi untuk gerakan karakter kadang mencubit gerak tubuh. Alat yang baik, pembayaran situasional.

Stabilitas gerakan

Ini adalah bagian paling berubah-ubah. Gerakan halus tanpa mengubah semuanya menjadi jelly.

Penyesuaian kecil yang penting:

Penahan panduan. Menjaga CFG dekat 5.0 mengurangi pop pencahayaan kecil antara frame.
Batas penghitungan langkah. Melampaui ~36 langkah memberi saya still yang lebih tajam tetapi lebih banyak micro-jitter dari waktu ke waktu.
Pilihan sampler. DPM++ 2M SDE secara konsisten lebih tenang dalam pan dan zoom lambat: Euler terasa lebih cepat tetapi berkedip pada tepi high-contrast.
Prompt verba. Kata-kata seperti “shaky, handheld, chaotic” melakukan apa yang mereka katakan. Saya menghindarinya kecuali saya menginginkan tampilan itu.
Sumber cahaya. Cahaya titik keras dan highlight specular mendorong shimmer. “Overcast” atau “softbox lighting” membuat permukaan tetap stabil.

Ketika saya membutuhkan lebih banyak grip, saya menambahkan dua hal pasca-render daripada di dalam grafik:

Sebuah lintasan deflicker ringan (deflicker DaVinci Resolve atau filter FFmpeg) pada kekuatan rendah.
Interpolasi frame 12→24 fps dengan interpolasi yang dikompensasi gerakan. Ini memperhalus gerakan yang dirasakan tanpa membingungkan model selama generation.

Satu kejutan: push kamera (slow dolly-in) tetap bersama lebih baik daripada pan lateral. Jika pan kiri-ke-kanan terus sobek pada signage, saya mengulangi prompt menjadi “kamera bergerak perlahan maju” dan mendapat hasil yang lebih bersih dengan nuansa serupa.

Batch rendering

Saya tidak mengharapkan batching membantu, tetapi itu membantu, terutama untuk pengambilan keputusan. Menjalankan 4-8 seed berturut-turut mengekspos prompt mana yang memiliki kaki nyata.

Apa yang saya gunakan:

Node “Seed (batch)” sederhana yang memberi makan grafik yang sama.
Panjang antrian 4-6 job. Melewati itu, saya mulai babysitting termal tanpa alasan baik.
Pengaturan baseline yang sama di seluruh batch: hanya seed yang bervariasi.

Kiat dari beberapa malam run:

Jaga durasi tetap pendek dalam batch (2-3 detik). Anda akan tahu dalam satu detik jika seed menjanjikan.
Simpan dengan nama file informatif: prompt slug + seed + resolusi + fps. Saya juga menambahkan seed ke metadata video, masa depan saya akan berterima kasih kepada diri saya sekarang.
Jika VRAM melonjak, kurangi ukuran batch menjadi 1 tetapi simpan daftar seed. Ini masih batch dalam semangat.

Saya mencoba batch nilai CFG yang berbeda dalam satu go. Itu bekerja, tetapi mengaburkan perbandingan. Saya mendapat read-out yang lebih bersih dengan mengisolasi satu variabel per batch.

Kesalahan umum

Beberapa pelanggan berulang muncul. Tidak ada yang dramatis, tetapi mereka memakan waktu sampai saya menulisnya.

CUDA kehabisan memori. Biasanya tanda saya mendorong resolusi melewati tepi. Perbaikan: turunkan lebar/tinggi sebesar 64 px, kurangi langkah sebesar 4-6, atau tutup apa pun yang menggigit VRAM (tab browser dihitung). Presisi setengah (fp16) membantu.
Model/config yang tidak cocok. Jika pemuatan WAN 2.5 dan konfigurasinya tidak setuju, Anda akan mendapatkan kesalahan bentuk atau dtype. Reinstall paket node dan memilih ulang config yang tepat memperbaikinya.
Dimensi yang tidak dapat dibagi. Decoder video lebih pilih-pilih. Saya tetap dengan kelipatan 16 untuk lebar dan tinggi.
Codec tidak didukung. Node Save Video kadang-kadang default ke codec yang sistem FFmpeg saya tidak suka. Saya mengatur H.264 dengan yuv420p secara eksplisit untuk menghindari frame hijau.
Prompt yang rusak. Negatif yang terlalu spesifik membuat wajah runtuh. Menghapus “deformed, disfigured, ugly” (boilerplate biasa) sebenarnya meningkatkan stabilitas dalam beberapa klip.

Ketika log menjadi berisik, saya memeriksa dua hal terlebih dahulu: versi ComfyUI (update jika Anda beberapa minggu di belakang), dan driver NVIDIA. Dua pertiga keanehan saya hidup di sana. Jika Anda macet, masalah ComfyUI GitHub sangat langsung tentang pola kesalahan. Jika Anda lebih suka fokus pada prompt dan gerakan daripada driver dan batas VRAM, itu salah satu alasan kami membangun WaveSpeed. Kami menawarkan akses terkelola ke model seperti WAN 2.5 melalui lapisan API yang stabil — sehingga Anda dapat generate tanpa memelihara stack lokal.

Export

Saya berhenti memikirkan export secara berlebihan setelah saya memilih satu jalur yang bersih.

Apa yang saya gunakan untuk draft:

Codec: H.264
Format pixel: yuv420p
FPS: cocokkan generation (biasanya 12)
Bitrate: konstan 8-12 Mbps untuk 896×504

Untuk editing, saya export lebih keruh terlebih dahulu, kemudian up-convert hanya yang bagus:

Interpolasi 12→24 fps dalam post.
Jika saya membutuhkan file yang friendly untuk grade, saya rerender finals ke ProRes 422 LT. Lebih berat, tetapi jauh lebih bagus untuk perlintasan warna.

Dua catatan kecil yang menyelamatkan saya dari re-render:

Pergeseran warna: beberapa pemain mengangkat hitam pada yuv420p. Jika terlihat salah di VLC tetapi bagus di Resolve, itu pemain.
Audio: node Save Video tidak akan menambahkannya. Jika saya membutuhkan soundtrack temp, saya mux dengan FFmpeg setelahnya.

Saya juga menyematkan seed, langkah, CFG, dan resolusi dalam nama file dan dalam JSON sidecar. Ini adalah bookkeeping yang membosankan yang mencegah arkeologi masa depan.

Ide template

Template yang saya simpan sekarang kecil dan memiliki tiga toggle.

Kerangka grafik:

Pemuatan WAN 2.5 → penyandian teks → seed tetap → sampler video → dekode VAE → Simpan Video

Tiga cabang opsional yang dapat saya nyalakan atau matikan:

Conditioning gambar referensi. Ketika saya menginginkan karakter yang stabil. Dilengkapi dengan penurunan otomatis dalam kekuatan denoise dan CFG.
Jadwal prompt. Prompt dua fase yang lembut untuk klip dengan beat sederhana (mis., “hujan dimulai” setelah satu detik). Saya menjaga transisi tetap lembut untuk menghindari flicker.
Daftar seed batch. Satu bidang di mana saya menempel 3-8 seed.

Default yang dipanggang:

896×504 pada 12 fps, 48 frame, CFG 5.0, langkah 30
H.264 export dengan yuv420p, template nama file yang mencakup seed

Ini adalah kebalikan dari meriah, dan itu poinsnya. Saya menginginkan template yang mendorong saya menuju kebiasaan yang sama setiap kali: klip pendek terlebih dahulu, satu variabel pada satu waktu, catatan saat saya melanjutkan.

Siapa ini cocok untuk: siapa pun yang menghargai ketenangan daripada kejutan, tim produk yang membuat shot yang dapat diulang, kreator solo yang membutuhkan tampilan yang dapat diprediksi, dan orang-orang yang merasa grafik besar lebih melelahkan daripada memberdayakan.

Siapa yang akan tidak menyukainya: jika Anda menyukai slider maksimal dan tampilan yang muncul secara chaotic, Anda akan memantul dari ini. Itu baik-baik saja.

Mengapa ini penting bagi saya: WAN 2.5 di ComfyUI akhirnya terasa seperti menghormati perhatian saya. Lebih sedikit knob, trade-off yang lebih jelas, dan hasil yang saya bisa percaya cukup untuk membangun.

Saya masih penasaran bagaimana WAN berperilaku pada resolusi yang lebih tinggi dan urutan yang lebih lama, tetapi saya belum terburu-buru. Kemenangan yang tenang bagi saya adalah menyadari bahwa perubahan kecil, CFG yang lebih tenang, seed yang tetap, pencahayaan yang lebih lembut, melakukan lebih banyak untuk stabilitas daripada node pahlawan apa pun. Saya terus mengharapkan trik. Ternyata itu adalah sistem.