Panduan Video Potret LTX-2.3: Alur Kerja 9:16 untuk Media Sosial & Mobile (2026)

Hai, saya Dora!

Saya sudah lama menunggu model video yang menjadikan format potret sebagai format utama, bukan tambahan. Sebagian besar alat masih menghasilkan video landscape dan membiarkan Anda memotongnya. LTX-2.3 mengubah itu — model ini menghasilkan video vertikal hingga 1080×1920, dilatih pada data orientasi potret, bukan dipotong dari landscape. Bagi tim sosial media yang menjalankan alur kerja TikTok dan Reels, perbedaan itu lebih berarti dari yang terdengar.

Mengapa Dukungan Potret Asli Penting (vs Potong dari Landscape)

Apa Artinya “Dilatih pada Data Potret” bagi Kualitas Output

Ketika model menghasilkan 16:9 lalu Anda memotong ke 9:16, model tersebut tidak menyusun komposisi untuk tampilan vertikal. Subjek berakhir di luar tengah, langit memenuhi sepertiga bawah, dan jalur gerakan terasa aneh di layar ponsel.

LTX-2.3 tersedia baik sebagai model open-source maupun melalui LTX API LTX, dengan dukungan potret yang dibangun ke dalam pipeline pelatihan — bukan ditambahkan belakangan. Model ini telah melihat komposisi vertikal-pertama selama pelatihan, yang berarti penempatan subjek, busur gerakan, dan pergerakan kamera semuanya dikalibrasi untuk tampilan frame tinggi.

Dukungan potret 9:16 memberikan kualitas yang sangat meningkat untuk video potret vertikal, sempurna untuk media sosial dan perangkat mobile. Itu bukan bahasa pemasaran — itu adalah perbedaan struktural dalam cara bobot model menangani hubungan spasial khusus rasio aspek.

Pengaturan Resolusi dan Frame Rate untuk 9:16

Konfigurasi 1080×1920 di ComfyUI dan melalui API

Default praktisnya adalah 720p (736×1280) untuk 9:16. Jika Anda memiliki GPU yang kuat seperti RTX 5090 atau lebih baik, coba 1088×1920 untuk kualitas 1080p penuh.

Di ComfyUI dengan node LTXVideo resmi, atur node resolusi Anda ke 768×1280 untuk keseimbangan VRAM/kualitas yang baik pada kartu 24GB. Untuk pengguna API, dokumentasi LTX API menerima aspect_ratio: "9:16" bersama dengan parameter resolusi Anda — perhitungan dimensi manual diperlukan.

Melalui API (konfigurasi minimal):

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

24 vs 48 FPS untuk Platform Sosial: Mana yang Digunakan

LTX-2.3 memperkenalkan 24/48 FPS sebagai opsi frame rate baru di samping 25/50 FPS yang sudah ada.

Untuk sosial media: gunakan 24fps untuk sebagian besar konten. TikTok dan Reels keduanya melakukan transcode saat upload, dan 24fps memberi Anda ruang terbesar tanpa membengkakkan ukuran file. Encode sekali pada 48fps dan konversi ke bawah nanti jika diperlukan — itu memberi Anda fleksibilitas terbesar dalam pasca-produksi. Simpan 48fps untuk konten di mana kelancaran gerakan adalah daya tarik utama (tari, peluncuran produk, emulasi slow-motion).

Prompting untuk Komposisi Vertikal

Bahasa Framing Vertikal-Pertama

Model merespons bahasa framing. Untuk output potret, awali dengan petunjuk orientasi sebelum mendeskripsikan subjek:

✅ vertical frame, close-up portrait, subject centered in upper half...
✅ phone-screen composition, full-body vertical shot, negative space below...
❌ wide establishing shot, panoramic landscape... (mendorong ke arah komposisi horizontal)

Penempatan Subjek dan Menghindari Output Bias-Landscape

Bahkan dengan pelatihan potret asli, model dapat bergeser ke arah komposisi horizontal ketika diprompt dengan bahasa adegan lebar. Jika subjek Anda terus bergeser ke tengah-lebar alih-alih atas-vertikal: tambahkan jangkar vertikal eksplisit seperti tall frame, vertical negative space, atau portrait orientation, face in upper third.

Untuk konten talking-head atau avatar, implementasi LTX-2.3 WaveSpeed mencatat bahwa klip potret bekerja paling baik ketika Anda mendeskripsikan gerakan relatif terhadap sumbu vertikal — kemiringan kamera, pan vertikal, dan tembakan naik semuanya memperkuat frame tinggi.

Audio dalam Alur Kerja Potret: Apa yang Disertakan dan Apa yang Dilewati

Kapan Audio Asli Menambah Nilai untuk Sosial (Konten Ambient, Sound-on)

Efek suara, kebisingan ambient, dan dialog disinkronkan dari generasi — endpoint audio-ke-video khusus memungkinkan Anda menyediakan klip audio dan menghasilkan visual yang cocok.

Gunakan audio asli ketika: konten Anda adalah sound-on (adegan ambient, klip alam, energi kerumunan). Peningkatan audio LTX-2.3 membuat suara atmosferik benar-benar dapat digunakan tanpa pasca-pemrosesan — artefak berkurang, dialog lebih bersih.

Kapan Melewati Audio dan Menambahkannya di Pasca-Produksi

Lewati audio asli untuk konten yang dipimpin voiceover, sinkronisasi musik, suara bermerek, atau apa pun yang membutuhkan pengeditan audio yang presisi. Hasilkan video saja, kemudian lapisi audio di NLE Anda. Varian Pro diperlukan untuk endpoint audio-ke-video, retake, dan extend — jika Anda hanya menghasilkan video untuk trek musik yang akan Anda tambahkan di pasca-produksi, varian Fast menghemat biaya dan waktu.

Alur Kerja Produksi Batch untuk Tim Sosial

Pipeline Storyboard-ke-Klip untuk Output Volume Tinggi

Untuk tim yang menghasilkan 20+ klip per hari, pipeline praktisnya adalah:

Skrip → storyboard dengan catatan framing khusus potret per tembakan
Prompt batch melalui LTX API — API bersifat stateless, sehingga permintaan paralel berjalan secara independen
QC pass — tandai output pergeseran subjek atau bias-landscape untuk regenerasi
Lapisan audio di pasca-produksi jika dipimpin musik

Menggunakan Varian Fast untuk Draf, Pro untuk Final

Mulai dengan Fast untuk menjelajahi komposisi dengan cepat, kemudian beralih ke Pro untuk render final. Fast dioptimalkan untuk kecepatan dan biaya rendah — terbaik untuk prototyping cepat, brainstorming, storyboarding, dan iterasi cepat. Pro memberikan fidelitas lebih tinggi dengan stabilitas gerakan dan detail visual yang lebih baik.

Pola biaya batch tipikal: jalankan 10 draf Fast untuk mengunci komposisi dan timing, kemudian satu render Pro untuk pengiriman. Ini memotong biaya iterasi sekitar 60% dibandingkan menjalankan Pro sepanjang waktu.

Extend-Video untuk Urutan Lebih Panjang Tanpa Regenerasi

Endpoint v1/extend memperpanjang durasi video dengan menghasilkan frame tambahan. Untuk urutan potret yang lebih panjang dari 8–10 detik, extend daripada regenerasi — itu mempertahankan konsistensi subjek di seluruh klip yang diperpanjang. Atur jendela konteks 2–3 detik dari ekor klip untuk sambungan paling mulus.

Keterbatasan dan Kegagalan Umum

Pergeseran Subjek dalam Klip Vertikal Panjang

Di luar 12–15 detik, klip potret dapat menunjukkan pergeseran subjek — model secara bertahap menggeser posisi subjek ke arah tengah frame. Mitigasi: gunakan Extend-Video dalam segmen lebih pendek (8d + 8d) daripada satu generasi 16 detik.

Kapan Landscape yang Dipotong dan Disempurnakan Masih Mengalahkan Potret Asli

Potret asli tidak selalu menjadi pilihan yang tepat. Untuk konten aksi lebar (olahraga, adegan kerumunan, tembakan kendaraan), generasi landscape diikuti dengan crop cerdas masih menghasilkan komposisi horizontal yang lebih baik dan gerakan yang lebih alami. Model bekerja paling baik pada rasio aspek widescreen seperti 16:9 atau 21:9 — format potret dapat menghasilkan hasil terdistorsi untuk beberapa jenis konten. Uji kedua pendekatan sebelum berkomitmen pada potret untuk setiap jenis konten.

Repositori GitHub ComfyUI-LTXVideo menyertakan alur kerja referensi untuk kedua jalur — berguna untuk perbandingan berdampingan tanpa membangun ulang node dari awal.

FAQ

Q1: Berapa resolusi maksimum untuk output potret LTX-2.3?

LTX-2.3 mendukung generasi teks-ke-video, gambar-ke-video, dan audio-ke-video hingga 1080p, termasuk potret asli (9:16). Dalam praktiknya, 1080×1920 adalah batas atas untuk potret. Untuk sebagian besar alur kerja sosial, 720p (736×1280) adalah default praktis — lebih cepat, lebih murah, dan platform melakukan transcode bagaimanapun.

Q2: Apakah mode potret memerlukan LoRA yang berbeda dari landscape?

Tidak. LTX-2.3 mendukung fine-tuning LoRA, memungkinkan Anda menyesuaikan model untuk gaya, karakter, atau kasus penggunaan tertentu. LoRA yang dilatih pada data landscape umumnya dapat ditransfer ke generasi potret — perilaku framing dikontrol oleh prompt dan pengaturan resolusi Anda, bukan bobot LoRA itu sendiri. Meskipun demikian, LoRA yang dilatih pada data khusus potret akan menghasilkan komposisi vertikal yang lebih konsisten.

Q3: Bagaimana kualitas potret LTX-2.3 dibandingkan dengan Kling untuk konten sosial?

Benchmark langsung bervariasi berdasarkan jenis konten. Keunggulan LTX-2.3 adalah bobot terbuka, akses API, dan pelatihan potret asli — Kling tetap hanya berbasis cloud dengan transparansi yang lebih sedikit seputar data pelatihan. Untuk konten potret ambient dan berbasis adegan, LTX-2.3 kompetitif pada 1080p. Untuk subjek manusia yang sangat bergaya, model tertutup Kling masih memiliki keunggulan dalam beberapa kategori. Uji pada jenis konten spesifik Anda sebelum memutuskan.

Q4: Bisakah saya menghasilkan klip potret secara batch melalui API?

Ya. LTX API dirancang untuk beban kerja dunia nyata dengan performa yang dapat diprediksi pada volume berapa pun — output stabil, fidelitas konsisten, dan keandalan tingkat infrastruktur. Permintaan potret dan landscape menggunakan endpoint yang sama. Tambahkan aspect_ratio: "9:16" ke body permintaan Anda. Lihat changelog LTX API untuk spesifikasi parameter terkini.

Q5: Apakah aplikasi LTX Desktop mendukung generasi potret?

LTX Desktop adalah editor video lengkap yang dibangun di atas mesin LTX-2.3, berjalan secara lokal di perangkat keras Anda dengan bobot terbuka dan tanpa ketergantungan cloud. Generasi potret didukung — atur resolusi ke rasio 9:16 dalam pengaturan output. Perlu dicatat bahwa platform fal.ai LTX-2.3 menawarkan alternatif serverless jika VRAM lokal menjadi kendala untuk render potret 1080p.

Kesimpulan

Dukungan potret asli LTX-2.3 adalah perubahan tingkat pelatihan yang nyata, bukan solusi pemotongan. Bagi tim sosial, itu berarti penempatan subjek yang lebih baik, gerakan yang lebih alami, dan lebih sedikit perbaikan komposisi pada tahap output.

Aturan praktisnya sederhana: 720p untuk sebagian besar pengiriman, Fast untuk draf dan Pro untuk final, Extend untuk apa pun di atas 12 detik. Untuk konten aksi lebar, landscape-lalu-potong masih menang — gunakan alat yang tepat untuk tembakan yang tepat.

Pipeline yang Anda bangun sekarang akan terus berkembang. Dapatkan alur kerja yang benar, dan peningkatan kualitas akan mengikuti dengan sendirinya.

Postingan sebelumnya: