LTX-2.3: Yang Baru di Model Video 22B Lightricks (2026)

Halo semua, saya Dora. Ada satu hal kecil yang mendorong saya untuk mencoba LTX‑2.3 minggu lalu: klip 4 detik di mana ritsleting jaket terus meleleh ke dalam kain. Saya tidak sedang mengejar model baru. Saya hanya ingin ritsleting itu terlihat seperti ritsleting tanpa harus mengutak-atik selama satu jam. Jadi saya menyisihkan satu malam dan menjalankan beberapa prompt dan isyarat audio yang sama yang sudah saya gunakan sejak LTX‑2. Catatan saya di bawah ini bukan tur fitur. Ini adalah bagian-bagian di mana rilis ini benar-benar mengubah hari kerja saya, dan bagian-bagian yang tidak.

LTX-2 vs LTX-2.3 Sekilas Pandang

Ini adalah ringkasan yang saya harapkan sudah ada sebelum saya mulai. Saya berbagi apa yang saya amati dan apa yang tercantum dalam catatan rilis. Jika ada yang terlihat perkiraan, itu disengaja.

Parameter	~10–14B (skala generasi sebelumnya)	~22B (dinyatakan vendor: konteks lebih besar)
VAE	VAE standar: detail mikro lebih lembut	VAE high-fidelity baru: tepi halus lebih tajam: gradien lebih bersih
Text encoder	Kepatuhan prompt solid: sedikit kabur pada objek kecil	Diperbarui dengan penanganan objek kecil lebih baik dan carry-over gaya
Audio	Kondisi audio dasar: sesekali phasing/warble	Lapisan audio dibangun ulang: kondisi lebih bersih: artefak lebih sedikit
Base/Output	Stabil di 720p base: dukungan portrait via cara darurat	Portrait 9:16 native: base sama tapi upscaler lebih baik
Baru	/	Peningkatan audio-to-video, upscaler spasial + temporal, opsi 24/48 FPS

Dua kesimpulan cepat dari tabel ini: upgrade VAE adalah pahlawan diam untuk visual, dan tumpukan audio terasa tidak terlalu rapuh. Lompatan parameter membantu konsistensi, tetapi tidak secara ajaib memperbaiki logika storyboard atau tipografi yang tepat.

VAE Baru — Apa Arti Detail Halus yang Lebih Tajam untuk Output

Di LTX‑2, saya sering melihat tekstur halus “bernapas” antar frame, butiran kain yang terlihat benar di frame 12 dan buram di frame 17. Dengan VAE baru LTX‑2.3, tepi dan mikro-tekstur lebih terjaga. Perbedaannya tidak mencolok: ini adalah ketiadaan gangguan-gangguan kecil.

Dalam praktiknya:

Helai rambut dan bulu mata tidak menggumpal secepat itu saat gerakan meningkat.
Tepi chrome mempertahankan highlight yang lebih ketat tanpa mengembang.
Gradien di langit dan bayangan mengambil lebih sedikit banding.

Ini tidak menghemat waktu saya pada awalnya, saya masih menjalankan sapuan denoise dan seed seperti biasa. Namun setelah tiga kali percobaan, saya berhenti melakukan cleanup mask manual pada perhiasan dan ritsleting. Itu adalah “waktu yang dihemat” secara lambat dan kumulatif: mungkin 6–8 menit per klip 10 detik.

Catatan: ini juga bisa memunculkan ketajaman berlebih jika Anda mendorong prompt kontras tinggi. Saya menurunkan guidance sedikit (sekitar 5–10%) dalam kasus tersebut untuk menghindari frame yang terlihat kasar.

Di Mana Anda Akan Melihat Perbedaannya (Wajah, Tekstur, Objek Kecil, Chrome)

Saya menjaga set pengujian tetap ketat: tiga prompt yang saya hafal, dijalankan pada seed yang sama selama minggu 18–24 Maret.

Wajah: Pori-pori, helai rambut halus, dan sudut mata bertahan lebih baik saat bergerak. Rasanya kurang seperti “filter kecantikan” secara default. Saya masih sesekali mendapat senyum yang terasa tidak alami saat saya terlalu membatasi prompt, tetapi pipi berlilin lebih sedikit secara keseluruhan.
Tekstur: Denim, linen, baja yang disikat. Ini yang paling banyak meningkat. Model menghormati pola anyaman tanpa berdenyut. Di LTX‑2, saya terkadang mendapat “texture drift” setiap ~8–10 frame. Itu sebagian besar hilang.
Objek kecil: Jarum jam, kancing, sekrup. Mereka mempertahankan bentuk lebih lama sebelum meleleh ke lingkungannya. Belum sempurna, tetapi lebih sedikit jump cut di mana sekrup berubah menjadi noda.
Chrome dan specular: Highlight tidak terlalu meledak. Saya melihat roll-off yang lebih ketat pada pelek reflektif dan keran, yang membuat frame tidak terlihat terlalu diproses.

Di mana jarum tidak bergerak: teks cetak terperinci dalam adegan (label, papan nama) masih tidak stabil. Jika teks yang jelas dan terbaca sangat penting, saya masih akan mengomposit setelahnya.

Lapisan Audio yang Dibangun Ulang: Generasi Lebih Bersih, Artefak Lebih Sedikit

Generasi yang dikondisikan audio terasa lebih stabil. Di LTX‑2, saya bisa mendengar sedikit phasing atau warble saat saya mengandalkan isyarat ritmis. Dengan 2.3, itu lebih jarang terjadi. Saya menguji klik 120 BPM dengan pad yang berdengung, lalu trek panduan spoken-word.

Yang berubah untuk saya:

Gerakan yang selaras dengan beat lebih konsisten tanpa mengurangi eksposur untuk “mengikuti” kick.
Ruang napas di sekitar sibilant dalam voiceover, lebih sedikit chatter yang biasanya mengaburkan frame.
Lebih sedikit artefak yang terdengar dalam ekspor. Pada run sebelumnya, saya terkadang mendengar bayangan dari kondisi dalam render. Itu hilang dalam pengujian saya.

Batasannya: Masih belum ada penyelarasan gerakan-ke-hit yang akurat per frame. Jika Anda membutuhkan penanda beat yang sempurna, Anda perlu memotong di post.

Apa yang Audio-to-Video Itu Bagus dan Tidak Bagus

Audio-to-video di 2.3 bagus untuk membentuk energi dan pacing. Tidak bagus untuk lip-sync atau koreografi yang presisi.

Di mana ini membantu saya:

Reel ambient di mana suasana hati mengikuti pembengkakan musik. Model “bernapas” bersama trek alih-alih memompa eksposur.
Klip produk dengan whoosh lembut, transisi terasa terarah daripada acak.

Di mana ini tidak membantu:

Lip-sync ke monolog. Bentuk mulut masih menyimpang. Saya tidak akan mengandalkan ini untuk talking head.
Potongan beat yang tepat atau langkah tari. Cukup dekat untuk nuansa, bukan untuk hitungan.

Jadi saya menggunakannya sebagai lapisan scaffolding: dapatkan nuansa gerakan dari audio, lalu kunci edit di NLE yang sesungguhnya.

Portrait 9:16 dan Opsi Frame Rate Baru (24 / 48 FPS)

Portrait 9:16 native akhirnya menghilangkan rantai crop saya yang canggung. Komposisi vertikal terlihat lebih disengaja, pembingkaian, bukan sekadar pemangkasan. Saya menjalankan ulang urutan kafe yang pernah saya buat di LTX‑2 (dipotong dari landscape) dan pass vertikal 2.3 memberi saya disiplin tepi yang lebih bersih di sekitar tangan dan cangkir.

Tentang frame rate:

24 fps: Gerakan terasa sinematik tetapi bisa strobing pada pan cepat. Masih default saya untuk nuansa naratif.
48 fps: Gerakan lebih halus tanpa tampilan soap-opera yang saya khawatirkan. Berguna untuk spin produk dan detail makro, terutama saat dipadukan dengan upscaler baru.

Satu hambatan kecil: 48 fps menggandakan beban tinjauan Anda. Saya mulai mengekspor segmen pendek untuk pemeriksaan, jika tidak saya akan melewatkan artefak kecil yang bersembunyi di antara frame.

Upscaler Spasial dan Temporal: Cara Mereka Bekerja Bersama

Dulu saya melakukan upscale secara spasial di alat terpisah dan menerima goyangan temporal sebagai harganya. Upscaler berpasangan LTX‑2.3 mengurangi trade-off itu.

Cara saya menjalankannya:

Generate di base yang nyaman (sekitar 720p), setujui gerakan.
Upscaler spasial untuk meningkatkan detail.
Upscaler temporal untuk menstabilkan antar frame.

Yang saya perhatikan:

Melakukan temporal terakhir menghindari masalah lama “frame tunggal indah, urutan tersentak-sentak”.
Pasangan ini memangkas 1–2 pass dari pipeline saya. Saya berhenti bolak-balik ke denoiser eksternal untuk sebagian besar klip.
Kasus kegagalan: jika gerakan base sudah kacau, upscaling temporal bisa mengaburkan mikro-gerakan. Saya memperbaiki ini dengan menurunkan kekuatan gerakan sebelum upscaling.

Ini bukan sihir, tetapi ini adalah bagian rilis yang paling “ramah sistem” untuk saya.

Skala 22B: Apa yang Diubah oleh Lompatan Parameter (dan Yang Tidak)

Model yang lebih besar dapat mengingat lebih banyak konteks dan melakukan generalisasi lebih baik. Itu muncul di sini sebagai persistensi objek yang lebih stabil selama 6–10 detik dan kepatuhan yang sedikit lebih baik terhadap prompt multi-klausa.

Perubahan yang saya rasakan:

Lebih sedikit pertukaran objek di tengah urutan (cangkir merah tetap merah lebih lama).
Instruksi gaya dibawa lebih andal.

Yang tidak diperbaikinya:

Logika spasial yang kompleks (mis., “kamera melewati belakang kursi, lalu memperlihatkan cermin yang menunjukkan…”). Anda masih perlu prompt yang hati-hati dan terkadang pass storyboard.
Rendering teks sempurna dalam adegan. Masih menyakitkan.

Biayanya:

Kebutuhan VRAM yang lebih berat dan latensi first-token yang lebih panjang. Box lokal saya (24 GB VRAM) menangani run pendek di base res: apa pun yang ambisius membutuhkan tiling atau offload.
Warm-up sedikit lebih lama. Tidak besar, tetapi terasa jika Anda beriterasi cepat.

Siapa yang Harus Memperhatikan Sekarang

Builder (alat, node, alur kerja kustom): VAE baru dan upscaler layak diintegrasikan. Mereka menghilangkan dua tiket dukungan “mengapa ini bergoyang?” yang umum. Jika Anda mengirimkan preset, pertimbangkan default guidance yang konservatif untuk menghindari tampilan terlalu tajam.
Tim produk: Konsistensi audio dan dukungan 9:16 mengurangi hambatan untuk output sosial. Jika pengguna Anda cenderung ke arah reels, 48 fps + upscaling temporal adalah upgrade yang tenang. Jangan terlalu menjual lip-sync, itu belum ada.
Kreator: Jika Anda berjuang melawan texture drift atau membenci alur kerja crop-to-vertical, 2.3 adalah rilis quality-of-life. Jika Anda berharap teks sempurna atau logika cerita yang ketat, Anda bisa menunggu dengan aman.

Perhitungan singkat saya: lebih sedikit cleanup mask, lebih sedikit perjalanan eksternal. Itu tidak mencolok, tetapi saya akan menerimanya.

FAQ

Apa Persyaratan VRAM untuk LTX-2.3 Secara Lokal?

Yang saya jalankan: 24 GB menangani generasi base-res pendek (sekitar 720p) dengan ruang untuk batch kecil. Untuk 1080p atau klip yang lebih panjang, saya membutuhkan tiling dan sesekali CPU offload. Jika Anda memiliki 12–16 GB, harapkan run yang lebih lambat dan batas yang lebih ketat. Kebutuhan tepat Anda akan bervariasi dengan sampler, panjang konteks, dan apakah Anda mengaktifkan kedua upscaler.

Jika Anda baru dalam tuning memori, catatan PyTorch tentang manajemen memori CUDA adalah primer yang berguna.

Apakah LTX-2.3 Kompatibel Mundur dengan Alur Kerja ComfyUI LTX-2 yang Ada?

Sebagian besar, ya secara prinsip, tetapi saya harus menukar node untuk VAE baru dan menyesuaikan guidance. Graf ComfyUI LTX‑2 saya yang lama dimuat, lalu mengeluh tentang beberapa field yang sudah tidak berlaku. Sepuluh menit pembersihan node memperbaikinya. Jika Anda membangun di Comfy, perhatikan node model loader dan VAE. Repo utama ComfyUI ada di sini jika Anda membutuhkan referensi: ComfyUI di GitHub.

Apakah LTX-2.3 Dapat Digunakan Secara Komersial?

Saya bukan pengacara. Saya memeriksa lisensi dalam catatan rilis dan terlihat standar untuk penggunaan komersial dengan pembatasan biasa (atribusi/penggunaan yang dapat diterima). Jika proyek Anda memiliki risiko, kampanye merek, siaran, baca lisensi baris demi baris dan simpan salinan lokal.

Apakah API Tersedia Saat Peluncuran?

Saya menggunakan run lokal dan endpoint yang dihosting selama pengujian. API yang dihosting ditandai sebagai tersedia dalam catatan, dengan beberapa kuota. Jika Anda mengandalkan fitur API (webhook, percobaan ulang, tugas jangka panjang), verifikasi di dokumen resmi sebelum menyiapkan pipeline.

Apakah LTX-2.3 Mendukung Fine-Tuning LoRA?

Saya melihat hook LoRA yang terekspos mirip dengan LTX‑2, dengan catatan kompatibilitas tentang text encoder yang diperbarui. Dalam praktiknya, LoRA lama saya dimuat tetapi perlu penyetelan ulang (turunkan kekuatan sedikit untuk menghindari artefak overfitting). Jika Anda bergantung pada fine-tune, sisihkan waktu untuk re-kalibrasi.

Saya memulai ini karena sebuah ritsleting. Saya mengakhirinya dengan lebih sedikit pass cleanup dan satu hack crop yang lebih sedikit. Tidak dramatis, hanya… lebih ringan. Itu sudah cukup bagi saya untuk putaran ini.