Memperkenalkan WaveSpeedAI LTX 2.3 LipSync di WaveSpeedAI

Generasi Berikutnya dari AI Lip Sync Telah Hadir: LTX-2.3 Lipsync

Membuat video talking head yang realistis dari audio tidak pernah semudah ini—atau terlihat sebaik ini. Kami dengan bangga mengumumkan LTX-2.3 Lipsync di WaveSpeedAI, evolusi terbaru dari model pembuatan video berbasis audio milik Lightricks. Dibangun di atas arsitektur LTX-2.3 DiT yang telah ditingkatkan, model ini menghadirkan visual yang jauh lebih tajam, sinkronisasi bibir yang lebih akurat, dan penyelarasan audio-visual yang lebih bersih dibandingkan pendahulunya.

Baik Anda membangun presenter virtual untuk pelatihan perusahaan, melokalisasi video pemasaran ke berbagai bahasa, atau mengubah audio podcast menjadi konten video yang menarik, LTX-2.3 Lipsync memungkinkan semuanya melalui satu panggilan API sederhana—tanpa cold start dan harga yang dimulai dari hanya $0,10 per generasi.

Apa Itu LTX-2.3 Lipsync?

LTX-2.3 Lipsync adalah model AI canggih yang menghasilkan video talking head dari file audio dan gambar potret referensi opsional. Masukkan rekaman ucapan, dan model ini akan menghasilkan video dengan gerakan bibir yang tersinkronisasi secara presisi, gerakan kepala yang natural, dan ekspresi wajah yang sesuai konteks.

Model ini dibangun di atas fondasi LTX-2.3 dari Lightricks—arsitektur Diffusion Transformer (DiT) yang menghasilkan video dan audio secara bersamaan dalam satu pipeline terpadu. Tidak seperti pendekatan lip-sync lama yang menempelkan animasi mulut pada wajah statis sebagai langkah pasca-pemrosesan, LTX-2.3 memahami hubungan mendalam antara ucapan dan gerakan visual. Hasilnya adalah video yang tidak hanya mencocokkan bentuk bibir dengan fonem, tetapi juga menangkap gerakan kepala yang halus, gerakan alis, dan perubahan ekspresi yang membuat ucapan manusia terlihat natural.

Rilis versi 2.3 memperkenalkan VAE yang dirancang ulang yang menghasilkan detail halus yang lebih tajam dan tekstur yang lebih realistis, konsistensi gerakan yang lebih baik yang menghilangkan artefak statis atau bergetar dari model sebelumnya, dan konektor teks perhatian bergerbang untuk kepatuhan prompt yang lebih baik. Ini bukan sekadar penyesuaian inkremental—ini mewakili peningkatan kualitas yang berarti dan terlihat di setiap frame.

Fitur Utama

Penyelarasan Audio-Visual yang Ditingkatkan: Arsitektur yang diperbarui menghadirkan sinkronisasi bibir yang lebih presisi dengan pencocokan fonem yang lebih bersih di berbagai bahasa dan gaya berbicara
Kualitas Visual yang Lebih Tajam: VAE baru menghasilkan fitur wajah yang lebih jelas, tekstur kulit yang lebih realistis, dan tepi yang lebih bersih di seluruh video
Generasi Berbasis Audio: Unggah file audio dan model menangani semuanya—lip sync, gerakan kepala, kedipan mata, dan ekspresi wajah—secara otomatis
Gambar Referensi Opsional: Sediakan potret untuk mendefinisikan tampilan pembicara Anda, atau biarkan model menghasilkannya menggunakan default-nya
Resolusi Fleksibel: Pilih 480p untuk iterasi cepat, 720p untuk kualitas seimbang, atau 1080p untuk output siap produksi
Pencocokan Durasi Otomatis: Panjang video secara otomatis menyesuaikan input audio Anda, mendukung klip dari 5 hingga 20 detik
Gaya Dipandu Prompt: Gunakan prompt teks opsional untuk memengaruhi ekspresi wajah, pencahayaan, dan gaya keseluruhan video yang dihasilkan

Kasus Penggunaan di Dunia Nyata

Pemasaran dan Konten Merek

Video talking head AI sedang mengubah cara tim pemasaran beroperasi. Perusahaan seperti Stellantis Financial Services dan Sonesta Hotels telah melaporkan pengurangan biaya produksi video sebesar 60–80% menggunakan presenter yang dihasilkan AI. Dengan LTX-2.3 Lipsync, Anda dapat membuat video juru bicara yang konsisten untuk peluncuran produk, kampanye media sosial, dan penjangkauan yang dipersonalisasi—lalu menghasilkannya kembali dalam bahasa baru tanpa perlu merekam ulang satu frame pun.

Pelatihan Perusahaan dan E-Learning

Pasar pembelajaran perusahaan sedang dengan cepat mengadopsi video AI untuk konten pelatihan yang skalabel. LTX-2.3 Lipsync memungkinkan desainer instruksional memproduksi video pelatihan yang dipimpin presenter dari skrip saja. Perbarui konten kursus hanya dengan merekam ulang audio—tanpa waktu studio, tanpa konflik jadwal, tanpa penundaan produksi. Satu gambar referensi bisa menjadi wajah konsisten dari seluruh program pelatihan.

Lokalisasi Konten dan Dubbing

Bisnis global membutuhkan konten dalam berbagai bahasa. Dubbing tradisional mahal dan memakan waktu. Dengan LTX-2.3 Lipsync, Anda dapat mengambil trek audio yang ada dalam bahasa apa pun dan menghasilkan video talking head yang cocok dengan gerakan bibir yang akurat untuk bahasa tersebut. Model secara otomatis menangani perbedaan bentuk mulut dan pola bicara di berbagai bahasa.

Konversi Podcast dan Audio ke Video

Video secara konsisten mengungguli konten audio saja di platform media sosial. Ubah klip podcast, narasi, atau rekaman pengisi suara menjadi video talking head yang menarik yang menarik perhatian di feed. Ini sangat berharga untuk menggunakan kembali konten audio format panjang menjadi klip video format pendek untuk platform seperti YouTube Shorts, TikTok, dan Instagram Reels.

Aksesibilitas

Hasilkan konten ucapan visual untuk penonton dengan gangguan pendengaran, buat video penjelas bernarasi dengan isyarat ucapan visual yang jelas, atau produksi materi visual tambahan untuk konten pendidikan yang mengutamakan audio.

Memulai di WaveSpeedAI

Mengintegrasikan LTX-2.3 Lipsync ke dalam alur kerja Anda hanya membutuhkan beberapa baris kode:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/lipsync",
    {
        "audio": "https://your-audio-url.com/speech.mp3",
        "image": "https://your-image-url.com/portrait.jpg",
        "resolution": "720p"
    },
)

print(output["outputs"][0])  # URL video output

API-nya sangat sederhana:

audio (wajib): URL ke file audio Anda—ini mendorong generasi dan menentukan panjang video
image (opsional): URL ke potret referensi yang mendefinisikan tampilan pembicara
prompt (opsional): Panduan teks untuk gaya ekspresi dan nada visual
resolution (opsional): 480p, 720p (default), atau 1080p

Harga yang Transparan dan Terjangkau

Harga disesuaikan dengan durasi audio dan resolusi:

Resolusi	5 detik	10 detik	15 detik	20 detik
480p	$0,10	$0,20	$0,30	$0,40
720p	$0,15	$0,30	$0,45	$0,60
1080p	$0,20	$0,40	$0,60	$0,80

Tidak ada langganan, tidak ada komitmen minimum. Bayar hanya untuk apa yang Anda hasilkan.

Tips untuk Hasil Terbaik

Mulai dari 480p: Lakukan iterasi pada audio dan gambar referensi Anda di resolusi terendah untuk menemukan tampilan yang tepat dengan cepat, lalu render versi final Anda di 720p atau 1080p.
Gunakan Audio yang Bersih: Ucapan yang jelas dengan kebisingan latar belakang minimal menghasilkan akurasi lip sync terbaik. Proses terlebih dahulu rekaman yang berisik sebelum mengirimkannya.
Pilih Potret yang Menghadap ke Depan: Gambar referensi dengan wajah yang terlihat jelas, ekspresi netral, dan pencahayaan yang baik menghasilkan hasil yang paling natural.
Panduan dengan Prompt: Gunakan parameter prompt opsional untuk memengaruhi ekspresi dan gaya—misalnya, “senyum hangat, pencahayaan profesional” atau “nada serius, kontak mata langsung.”
Segmentasi Konten yang Lebih Panjang: Untuk konten di atas 20 detik, hasilkan beberapa klip dan gabungkan dalam pasca-produksi. Jaga setiap segmen di bawah 20 detik untuk kualitas optimal.

Mengapa WaveSpeedAI?

Menjalankan LTX-2.3 Lipsync di WaveSpeedAI memberi Anda keunggulan infrastruktur yang penting dalam produksi:

Tanpa Cold Start: Permintaan mulai diproses segera—tidak perlu menunggu GPU untuk siap
Inferensi Cepat: Infrastruktur penyajian yang dioptimalkan menghasilkan hasil dengan cepat untuk iterasi yang gesit
REST API Sederhana: Tambahkan generasi talking head ke aplikasi apa pun dengan upaya integrasi minimal
Biaya yang Dapat Diprediksi: Harga per generasi yang transparan tanpa biaya tersembunyi

Mulai Membangun Hari Ini

LTX-2.3 Lipsync mewakili lompatan signifikan dalam kualitas pembuatan video berbasis audio. Kombinasi fidelitas visual yang ditingkatkan, sinkronisasi bibir yang lebih akurat, dan fleksibilitas praktis dari generasi yang dipandu prompt menjadikannya salah satu model lip-sync paling mumpuni yang tersedia melalui API saat ini.

Siap membuat video talking head pertama Anda? Coba LTX-2.3 Lipsync di WaveSpeedAI dan lihat sendiri perbedaannya.