Memperkenalkan WaveSpeedAI LTX 2 19b Text-to-Video di WaveSpeedAI

LTX-2 19B Diluncurkan di WaveSpeedAI: Pembuatan Video dari Teks dengan Audio Tersinkronisasi

Perlombaan untuk menciptakan pembuat video AI yang siap produksi baru saja mencapai tonggak baru. LTX-2 19B, model fondasi text-to-video revolusioner dari Lightricks, kini tersedia di WaveSpeedAI—membawa pembuatan audio-video tersinkronisasi, berbagai mode performa, dan klip hingga 20 detik untuk kreator, pemasar, dan pengembang.

Berbeda dengan model video AI tradisional yang menghasilkan klip diam memerlukan post-produksi audio terpisah, LTX-2 19B menghasilkan pengalaman audiovisual lengkap dalam satu kali proses. Langkah kaki tersinkronisasi sempurna dengan animasi berjalan. Soundskape ambient cocok dengan lingkungan visual. Nada mirip ucapan dan audio lingkungan muncul secara alami dari prompt teks Anda—tidak perlu pengeditan audio.

Apa itu LTX-2 19B?

LTX-2 19B adalah model fondasi audio-video berbasis DiT (Diffusion Transformer) pertama yang menggabungkan pembuatan suara dan video tersinkronisasi dalam satu sistem terpadu. Dengan 19 miliar parameter, ini merepresentasikan pergeseran arsitektur fundamental dalam cara AI menghasilkan konten multimedia.

Dirilis oleh Lightricks pada akhir 2025 dan kini sepenuhnya open-source, LTX-2 telah diakui sebagai salah satu model video AI yang paling ramah pengembang di pasar. Ini berjalan efisien pada GPU konsumen, memberikan output siap produksi pada resolusi hingga 1080p, dan—secara kritis untuk pengguna WaveSpeedAI—tersedia melalui REST API siap pakai tanpa cold start dan harga per detik yang terjangkau.

Model mendukung rasio aspek fleksibel (lanskap 16:9 dan vertikal 9:16), durasi variabel dari 5 hingga 20 detik, dan tiga tingkat resolusi (480p, 720p, 1080p) untuk menyeimbangkan kualitas, kecepatan, dan biaya.

Fitur Utama yang Membedakan LTX-2

Pembuatan Audio-Video Tersinkronisasi

Fitur pendefinisi LTX-2 adalah kemampuannya untuk menghasilkan audio yang secara alami selaras dengan konten visual. Ketika Anda meminta “badai petir di atas cakrawala kota,” Anda mendapatkan kilatan petir dan gemuruh guntur. “Pianis jazz tampil di klub gelap” menghasilkan tidak hanya tangan beranimasi di tuts, tetapi soundskape ambient dari pertunjukan langsung.

Ini bukan musik latar yang dilapisi di atas—ini adalah audio kontekstual yang dihasilkan melalui proses difusi yang sama yang menciptakan visual, memastikan keselarasan temporal dan semantik.

Kualitas Siap Produksi

LTX-2 19B telah dibandingkan dengan pesaing kelas atas seperti Sora 2 dan Kling 2.6. Meskipun Sora 2 memimpin dalam fotorealisme untuk kasus penggunaan tertentu, LTX-2 memberikan keseimbangan yang menarik: karakter yang responsif secara alami, gerakan yang konsisten secara temporal, dan—secara unik—pembuatan video 20 detik, dibandingkan dengan batas 12 detik Sora 2.

Menurut perbandingan industri, LTX-2 mencapai paritas mendekati dengan Sora 2 dalam kualitas visual sambil biaya sekitar 40% lebih murah per generasi dan menawarkan output durasi lebih lama.

Resolusi dan Rasio Aspek Fleksibel

Implementasi WaveSpeedAI memberi Anda kontrol penuh atas format output:

480p: Iterasi cepat, biaya terendah—ideal untuk prototipe cepat dan menguji banyak prompt
720p: Kualitas seimbang dan biaya, cocok untuk sebagian besar kasus penggunaan media sosial dan web
1080p: Detail maksimal untuk deliverable final, presentasi, dan konten kelas atas

Anda dapat beralih antara lanskap 16:9 (YouTube, desktop) dan vertikal 9:16 (TikTok, Instagram Reels, Stories) untuk mencocokkan persyaratan platform tanpa alat tambahan.

Kontrol Durasi Variabel

Hasilkan klip dari 5 hingga 20 detik—cukup lama untuk membangun beat naratif, menunjukkan demo produk, atau membuat potongan media sosial lengkap. Durasi yang diperpanjang ini membedakan LTX-2 dari pesaing dan mengurangi kebutuhan untuk menjahit beberapa generasi bersama.

Kasus Penggunaan Dunia Nyata

Konten Media Sosial Bentuk Pendek

Buat TikTok, Reels, dan Stories dengan audio bawaan dalam hitungan detik. Tidak perlu sourcing audio terpisah, lisensi, atau sinkronisasi manual. Prompt “skateboarding melalui terowongan berlampu neon” dan dapatkan klip lengkap siap untuk diunggah.

Demonstrasi Produk

Hasilkan video promosi dengan suara ambient yang meningkatkan narasi visual. Prompt seperti “kopi dituangkan ke dalam cangkir keramik di dapur bersinars matahari” menghasilkan uap, gerakan, dan suara cairan yang mengenai porselen.

Pemasaran dan Periklanan

Hasilkan konten iklan dengan desain audiovisual yang kohesif. Kemampuan LTX-2 untuk menghasilkan audio yang sesuai secara kontekstual berarti tangkapan produk Anda dilengkapi dengan soundskape yang cocok—tidak ada perpustakaan audio stok yang diperlukan.

Prototipe dan Visualisasi Konsep

Dengan cepat visualisasikan ide untuk tinjauan pemangku kepentingan. Iterasi di 480p untuk menguji variasi prompt, kemudian render final di 1080p setelah konsep terkunci. Parameter seed tetap memastikan reproduktibilitas di seluruh iterasi.

Pembuat Konten dan YouTuber

Hasilkan B-roll, intro, atau urutan naratif dengan suara tersinkronisasi. Jendela durasi 20 detik ideal untuk establishing shot, transisi, atau beat cerita mandiri.

Cara Memulai di WaveSpeedAI

Menggunakan LTX-2 19B di WaveSpeedAI sangat mudah:

Navigasi ke halaman model: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
Tulis prompt Anda: Jelaskan adegan, tindakan, dan isyarat audio spesifik apa pun (mis., “langkah kaki di kerikil,” “guntur jauh,” “piano jazz”)
Konfigurasi pengaturan:
- Resolusi: Pilih 480p (iterasi cepat), 720p (seimbang), atau 1080p (kualitas final)
- Rasio aspek: 16:9 untuk lanskap, 9:16 untuk vertikal
- Durasi: 5–20 detik berdasarkan kebutuhan konten Anda
- Seed (opsional): Atur nilai tetap untuk hasil yang dapat direproduksi
Jalankan: Kirimkan permintaan Anda dan terima video dengan audio tersinkronisasi—tidak perlu post-produksi

WaveSpeedAI menangani semua infrastruktur: cold start instan, inferensi teroptimalkan, dan penagihan per detik. Anda hanya membayar untuk apa yang Anda hasilkan, dengan harga transparan mulai dari $0,06 untuk klip 480p 5 detik.

Contoh Python SDK

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL with audio

Harga yang Dapat Diskalakan

WaveSpeedAI menawarkan harga berbasis penggunaan yang dapat diskalakan dengan resolusi dan durasi:

Resolusi	5s	10s	15s	20s
480p	$0,06	$0,12	$0,18	$0,24
720p	$0,08	$0,16	$0,24	$0,32
1080p	$0,12	$0,24	$0,36	$0,48

Model harga ini memastikan Anda dapat melakukan iterasi bebas pada resolusi lebih rendah dan menyisihkan render berkualitas tinggi untuk output final—memaksimalkan fleksibilitas kreatif dan efisiensi biaya.

Mengapa Memilih WaveSpeedAI?

WaveSpeedAI menyediakan keuntungan infrastruktur yang Anda butuhkan untuk alur kerja produksi:

Tidak ada cold start: Inferensi instan, bahkan setelah periode idle yang panjang
Inferensi cepat: Alokasi GPU yang dioptimalkan untuk waktu tunggu minimal
Harga terjangkau: Bayar hanya untuk detik dan resolusi yang Anda gunakan
REST API: Integrasi sederhana ke dalam alur kerja yang ada, pipeline otomasi, atau aplikasi kustom
Penagihan transparan: Tidak ada biaya tersembunyi, tingkatan langganan, atau kredit komputasi

Tips Pro untuk Hasil Terbaik

Spesifik tentang audio: Meskipun audio dihasilkan secara otomatis, mendeskripsikan suara dalam prompt Anda (“badai petir,” “musik jazz,” “langkah kaki”) membantu memandu model
Cocokkan rasio aspek dengan platform: Gunakan 9:16 untuk platform vertikal-pertama (TikTok, Stories), 16:9 untuk YouTube dan desktop
Iterasi di 480p: Sempurna kan prompt Anda dengan biaya lebih rendah, kemudian skala naik ke 1080p untuk pengiriman final
Gunakan seed tetap: Saat menguji variasi prompt, kunci seed untuk mengisolasi efek perubahan Anda
Gabungkan beberapa klip: Untuk konten yang lebih lama, hasilkan segmen 20 detik dan edit bersama dalam post-produksi

Masa Depan AI Audiovisual

LTX-2 19B merepresentasikan pergeseran fundamental dalam video AI—dari menghasilkan klip diam hingga menghasilkan pengalaman audiovisual lengkap. Sebagai model fondasi audio-video berbasis DiT pertama, ini menetapkan baseline baru untuk apa yang seharusnya diharapkan oleh pembuat dari alat video generatif.

Dengan WaveSpeedAI menangani infrastruktur dan model open-source Lightricks menyediakan kualitas generasi terdepan, Anda dapat fokus pada apa yang penting: menciptakan konten yang menarik.

Coba LTX-2 19B Hari Ini

Siap membuat klip audio-video tersinkronisasi pertama Anda? Buka halaman model LTX-2 19B di WaveSpeedAI dan mulai membuat. Baik Anda seorang pembuat solo, tim pemasaran, atau pengembang membangun pipeline konten otomatis, LTX-2 19B memberikan hasil siap produksi dengan harga yang dapat diskalakan sesuai kebutuhan Anda.

Mulai membuat sekarang: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video