Memperkenalkan WaveSpeedAI LTX 2.3 Image-to-Video di WaveSpeedAI
LTX-2.3 adalah model fondasi audio-video berbasis DiT yang dirancang untuk menghasilkan video dan audio yang tersinkronisasi dalam satu model, dengan kualitas audio dan visual yang ditingkatkan
Hidupkan Gambar Anda dengan LTX-2.3 Image-to-Video di WaveSpeedAI
Gambar diam menceritakan sebuah kisah. Gambar bergerak dengan suara membuat penonton merasakannya. Dengan LTX-2.3 Image-to-Video yang kini tersedia di WaveSpeedAI, Anda dapat mengubah gambar statis apa pun menjadi video berkualitas tinggi — lengkap dengan audio tersinkronisasi — dalam satu proses generasi. Tanpa pasca-produksi. Tanpa alat audio terpisah. Cukup unggah, berikan prompt, dan putar.
Dibangun oleh Lightricks dengan arsitektur Diffusion Transformer (DiT), LTX-2.3 merupakan lompatan besar dalam generasi audio-video terpadu. Di mana sebagian besar model image-to-video menghasilkan klip tanpa suara yang memerlukan desain suara terpisah, LTX-2.3 menghasilkan gerakan dan audio secara bersamaan sebagai satu output yang koheren. Hasilnya adalah konten animasi yang terasa utuh sejak frame pertama.
Apa Itu LTX-2.3?
LTX-2.3 adalah iterasi terbaru dari keluarga model LTX-2 — sebuah model fondasi dengan 19 miliar parameter yang terbagi menjadi sekitar 14 miliar parameter untuk pemrosesan video dan 5 miliar untuk audio. Ini adalah salah satu model open-source pertama yang mampu menghasilkan audio dan video tersinkronisasi dalam satu arsitektur terpadu, menggunakan mekanisme cross-attention untuk menjaga suara dan gerakan tetap selaras sempurna.
Rilis “2.3” memperkenalkan peningkatan signifikan dibandingkan pendahulunya: VAE (Variational Autoencoder) yang dibangun ulang dan dilatih pada data berkualitas lebih tinggi, vocoder HiFi-GAN yang ditingkatkan untuk output audio yang lebih bersih, konsistensi image-to-video yang lebih kuat, dan kepatuhan prompt yang lebih baik di seluruh pipeline generasi.
Fitur Utama
-
Generasi Audio-Video Tersinkronisasi: Suara tidak sekadar ditambahkan belakangan. Kebisingan ambien, musik, isyarat dialog, dan efek suara dihasilkan bersama gerakan visual dalam satu proses, menghilangkan kebutuhan akan alur kerja audio terpisah.
-
VAE Baru untuk Detail Lebih Tajam: Ruang laten yang dibangun ulang dalam LTX-2.3 mempertahankan tekstur halus, fitur wajah, rambut, teks, dan detail tepi di seluruh frame. Output secara kasat mata lebih tajam dibandingkan versi sebelumnya.
-
Output Audio Lebih Bersih: Vocoder HiFi-GAN yang ditingkatkan mengurangi artefak kebisingan dan jeda keheningan. Dialog, suara ambien, dan musik terdengar dengan kejernihan yang jauh lebih baik.
-
Pelestarian Gambar yang Setia: Model mempertahankan subjek, komposisi, pembingkaian, dan pencahayaan gambar referensi Anda sambil menambahkan gerakan yang alami dan koheren — tanpa pergeseran identitas atau degradasi visual.
-
Resolusi dan Durasi Fleksibel: Buat video pada 480p, 720p, atau 1080p, dengan durasi mulai dari 5 hingga 20 detik, memungkinkan Anda menyeimbangkan kualitas, biaya, dan kebutuhan kreatif.
-
Dukungan Portrait dan Landscape: Mode portrait 9:16 native memudahkan pembuatan konten yang dioptimalkan untuk platform sosial seperti Instagram Reels, TikTok, dan YouTube Shorts.
-
Pilihan 24/48 FPS: Pilih frame rate yang sesuai dengan kebutuhan output Anda, dari pemutaran standar hingga pengiriman frame rate tinggi yang lebih halus.
Kasus Penggunaan di Dunia Nyata
Pemasaran Produk
Ubah foto produk menjadi video showcase yang dinamis. Unggah foto utama sneaker, botol perawatan kulit, atau perabot, dan LTX-2.3 menganimasikannya dengan gerakan halus — tampilan berputar, pencahayaan bergeser, atmosfer lingkungan — sambil menghasilkan audio ambien yang sesuai. Yang dulu membutuhkan videografer dan desainer suara kini bisa dirancang dalam hitungan detik.
Konten Media Sosial
Permintaan akan video format pendek tidak pernah berhenti. LTX-2.3 memungkinkan kreator mengonversi gambar diam terbaik mereka menjadi postingan animasi menarik perhatian dengan suara bawaan. Foto lanskap menjadi momen sinematik dengan angin dan kicauan burung. Foto makanan menjadi klip mendesis dan mengepul yang siap diposting.
Animasi Portrait dan Karakter
Animasikan foto kepala, portrait, dan karya seni karakter dengan gerakan alami. Model ini unggul dalam mempertahankan identitas wajah sambil menambahkan gerakan seperti nyata — putaran kepala halus, kedipan mata, perubahan ekspresi — menjadikannya berharga untuk avatar digital, proyek kreatif, dan konten yang dipersonalisasi.
Storyboard dan Pra-Visualisasi
Bagi para pembuat film dan direktur kreatif, LTX-2.3 mengubah frame storyboard statis dan concept art menjadi urutan animasi dengan audio tersinkronisasi. Ini mempercepat pra-produksi dengan memberi para pemangku kepentingan gambaran nyata tentang ritme, suasana, dan desain suara sebelum satu frame pun diambil.
E-Commerce dan Periklanan
Daftar produk statis kehilangan perhatian. Video produk animasi dengan suara ambien meningkatkan keterlibatan dan tingkat konversi. LTX-2.3 membuatnya praktis untuk menghasilkan aset video dalam skala besar — iterasi cepat di 480p, lalu render aset final di 1080p.
Memulai di WaveSpeedAI
Menjalankan LTX-2.3 Image-to-Video di WaveSpeedAI sangat mudah. Tanpa cold start dan inferensi cepat, Anda mendapatkan hasil dalam hitungan detik, bukan menit.
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/photo.jpg",
"prompt": "The camera slowly pushes in as the subject turns their head, soft ambient music playing"
},
)
print(output["outputs"][0]) # URL video output
Anda juga dapat menentukan resolusi dan durasi:
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/product.jpg",
"prompt": "Gentle rotation revealing product details, soft studio lighting, subtle ambient hum",
"resolution": "1080p",
"duration": 10
},
)
Tips pro: Mulailah dengan 480p dan durasi pendek untuk menyempurnakan prompt dan arah gerakan Anda. Setelah mendapatkan hasil yang diinginkan, tingkatkan ke 1080p untuk pengiriman final. Gunakan seed tetap saat membandingkan variasi prompt agar Anda dapat mengisolasi persis apa yang berubah.
Harga
LTX-2.3 di WaveSpeedAI mulai dari hanya $0,10 untuk klip 5 detik di 480p, hingga $0,80 untuk video 20 detik 1080p. Tidak perlu berlangganan — bayar hanya untuk apa yang Anda hasilkan.
| Resolusi | 5d | 10d | 15d | 20d |
|---|---|---|---|---|
| 480p | $0,10 | $0,20 | $0,30 | $0,40 |
| 720p | $0,15 | $0,30 | $0,45 | $0,60 |
| 1080p | $0,20 | $0,40 | $0,60 | $0,80 |
Mengapa WaveSpeedAI?
Dalam lanskap di mana generasi audio-video tersinkronisasi dengan cepat menjadi standar — dengan model seperti Veo 3.1, Kling 3.0, dan Sora 2 yang terus mendorong batas — LTX-2.3 menonjol sebagai opsi open-source yang kuat dengan kualitas setara produksi. Dan menjalankannya di WaveSpeedAI memberi Anda infrastruktur yang sepadan: inferensi cepat tanpa cold start, integrasi API yang sederhana, dan harga yang membuat eksperimentasi terjangkau.
Baik Anda kreator solo yang menganimasikan konten sosial maupun tim yang menghasilkan aset video dalam skala besar, kombinasi generasi audio-video terpadu LTX-2.3 dan infrastruktur teroptimasi WaveSpeedAI berarti lebih sedikit waktu menunggu dan lebih banyak waktu berkreasi.
Mulai Berkreasi
Jarak antara gambar diam dan video lengkap dengan suara tidak pernah sekecil ini. Coba LTX-2.3 Image-to-Video di WaveSpeedAI sekarang dan dengarkan seperti apa gambar Anda saat bergerak.





