Memperkenalkan WaveSpeedAI LTX 2.3 Text-to-Video di WaveSpeedAI

LTX-2.3 Text-to-Video: Hasilkan Video dan Audio Tersinkronisasi dari Satu Prompt

LTX-2.3 adalah model fondasi audio-video berbasis DiT yang menghasilkan video dan audio yang sepenuhnya tersinkronisasi dari satu prompt teks — menghilangkan alur kerja dua langkah tradisional dalam memproduksi visual dan suara secara terpisah. Kini tersedia di WaveSpeedAI, rilis yang diperbarui ini menghadirkan visual yang lebih tajam, audio yang lebih kaya, dan kepatuhan prompt yang jauh lebih baik dibandingkan pendahulunya, menjadikannya pilihan menarik bagi para kreator yang menginginkan klip siap produksi tanpa harus menggabungkan beberapa alat AI secara terpisah.

Bagi studio, pemasar, dan kreator independen, pesannya sederhana: ketik sebuah adegan, dapatkan video yang sudah terdengar benar.

Cara Kerja LTX-2.3 Text-to-Video

LTX-2.3 dibangun di atas arsitektur Diffusion Transformer (DiT) yang dilatih secara bersama pada data video dan audio. Alih-alih menghasilkan rekaman tanpa suara lalu menambahkan suara setelahnya, model ini menghasilkan kedua modalitas dalam satu kali proses, sehingga kejadian di layar dan isyarat audio tetap selaras — langkah kaki terdengar tepat waktu, hujan mendesis saat tetesan hujan muncul, dan ambiens mirip dialog sesuai dengan konteks visual.

Spesifikasi teknis utama yang penting bagi pengembang:

Input: Prompt teks yang mendeskripsikan adegan, gerakan, dan isyarat audio
Output: Video MP4 dengan audio tersinkronisasi yang tertanam
Resolusi: 480p, 720p (default), 1080p
Durasi: 5 hingga 20 detik dalam satu generasi
Batasan: Lebar dan tinggi habis dibagi 32; jumlah frame habis dibagi 8 + 1
Kontrol seed: Seed tetap opsional untuk iterasi yang dapat direproduksi

Dibandingkan dengan model text-to-video yang menghasilkan klip tanpa suara (gaya Sora atau baseline difusi sebelumnya), LTX-2.3 menggabungkan dua pipeline — sintesis visual dan pembuatan audio — ke dalam satu model fondasi. Artinya latensi lebih rendah, biaya lebih rendah, dan tidak ada pekerjaan sinkronisasi manual di pasca produksi.

Siap mencobanya? Coba LTX-2.3 Text-to-Video di WaveSpeedAI dan hasilkan klip pertama Anda dalam waktu kurang dari satu menit.

Fitur Utama LTX-2.3 Text-to-Video

Audio-video tersinkronisasi dalam satu proses — Tidak ada langkah desain suara terpisah. Model menghasilkan ambiens, efek, dan audio atmosferik yang sesuai sebagai bagian dari proses difusi yang sama.
Kepatuhan prompt yang ditingkatkan dibanding LTX-2 — Pembaruan 2.3 memperketat keselarasan antara prompt yang terperinci dan adegan yang dirender, sehingga deskripsi kompleks diterjemahkan ke layar dengan lebih andal.
Tiga tingkat resolusi (480p / 720p / 1080p) — Iterasi murah di 480p, lalu tingkatkan ke 1080p untuk pengiriman final tanpa mengubah prompt atau alur kerja Anda.
Durasi klip variabel hingga 20 detik — Cukup panjang untuk pembacaan iklan, kait media sosial, dan ketukan narasi pendek; cukup singkat untuk menjaga generasi tetap cepat.
Model fondasi berbasis DiT — Arsitektur Diffusion Transformer menghasilkan gerakan yang konsisten secara temporal dan tekstur beresolusi tinggi, terutama pada adegan dinamis.
REST API siap produksi — Tersedia di WaveSpeedAI tanpa cold start, latensi yang dapat diprediksi, dan harga bayar sesuai penggunaan.
Output yang dapat direproduksi dengan kontrol seed — Kunci seed untuk A/B test variasi prompt tanpa gangguan varians acak.

Kasus Penggunaan Terbaik LTX-2.3 Text-to-Video

Konten Media Sosial dalam Skala Besar

Platform konten pendek menghargai kecepatan dan audio. LTX-2.3 memungkinkan kreator menerbitkan klip TikTok, Reels, dan Shorts berdurasi 10–15 detik dengan desain suara bawaan — tanpa harus mencari musik bebas royalti, tanpa timeline Audacity. Ketik “jalan Tokyo bermandikan cahaya neon, hujan memercik ke genangan, jazz sayup-sayup, dolly maju perlahan,” dan model akan mengembalikan postingan yang siap digunakan.

Iklan Pemasaran dan Performa

Pemasar performa perlu menguji puluhan varian kreatif per minggu. Dengan LTX-2.3, sebuah agensi dapat menghasilkan iklan penuh dalam 720p seharga $0,30 per spot 10 detik, menukar teks atau deskripsi adegan, dan melakukan iterasi konsep kreatif lebih cepat dari pipeline produksi tradisional mana pun. Audio tersinkronisasi berarti setiap varian siap untuk jaringan iklan sejak awal.

Storyboard dan Pra-Visualisasi

Sutradara film dan animator dapat mengubah adegan tertulis menjadi previz hidup dengan atmosfer yang sesuai. Deskripsikan adegan dari skenario — “angin meraung di atas punggung gurun, penunggang kuda berlari melewati kamera, suara gagak dari atas” — dan gunakan klip yang dihasilkan untuk menyelaraskan sinematografer, editor, dan klien sebelum hari syuting sesungguhnya.

Demo Produk dan Explainer

Tim SaaS dan perangkat keras dapat membuat prototipe explainer video tanpa memesan studio. Deskripsikan konteks produk, gerakan, dan pengaturan ambien, lalu gunakan LTX-2.3 untuk menghasilkan B-roll latar belakang yang sudah terdengar profesional — sempurna untuk halaman arahan, alur orientasi, dan pitch deck.

Trailer Game dan Konsep Sinematik

Studio game indie dapat dengan cepat membuat rancangan potongan trailer dan video konsep atmosferik. Audio tersinkronisasi sangat berharga di sini: klip serangan di hutan 10 detik dengan gemerisik daun, dentingan pedang, dan kepak burung menyampaikan nuansa sebuah game jauh lebih baik daripada rekaman tanpa suara.

Visualizer Musik dan Suasana

Musisi dan kreator lo-fi dapat menghasilkan potongan suasana berulang — “hujan di jendela, piano lembut, zoom lambat pada secangkir kopi” — untuk visualizer streaming, latar belakang siaran langsung, dan postingan media sosial.

Konten Edukasi dan Naratif

Pendidik dan pencerita dapat menghidupkan konten tertulis. Seorang penulis buku anak dapat membuat prototipe pembacaan animasi; saluran sejarah dapat mengilustrasikan momen pengaturan adegan tanpa harus melisensikan rekaman stok.

Harga dan Akses API LTX-2.3

LTX-2.3 menggunakan harga bayar sesuai penggunaan yang transparan, diskalakan berdasarkan resolusi dan durasi:

Resolusi	5d	10d	15d	20d
480p	$0,10	$0,20	$0,30	$0,40
720p	$0,15	$0,30	$0,45	$0,60
1080p	$0,20	$0,40	$0,60	$0,80

Artinya klip 1080p 20 detik yang sudah termasuk audio hanya seharga $0,80 — sebagian kecil dari biaya lisensi rekaman stok atau biaya produksi video lepas biasa.

Memanggil LTX-2.3 melalui API WaveSpeedAI

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/text-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Keunggulan WaveSpeedAI yang penting bagi pengembang:

Tanpa cold start — latensi panggilan pertama sama dengan latensi status stabil
REST API — agnostik bahasa, dapat diintegrasikan ke tumpukan teknologi apa pun
Bayar sesuai penggunaan — tanpa minimum, tanpa biaya GPU menganggur
Uptime tingkat produksi — dibangun untuk beban kerja inferensi throughput tinggi

Dapatkan kunci API dan mulai membangun dengan LTX-2.3.

Tips untuk Hasil Terbaik dengan LTX-2.3 Text-to-Video

Eksplisit tentang audio — Model menghasilkan suara secara otomatis, tetapi menyebutkan “hujan”, “piano jazz”, “sorak kerumunan”, atau “langkah kaki di kerikil” memberi Anda kontrol lebih kuat atas trek audio.
Deskripsikan gerakan, bukan hanya pemandangan — Gerakan kamera (“dolly masuk perlahan”, “handheld tracking shot”), gerakan subjek, dan isyarat tempo menghasilkan output yang lebih sinematik dibandingkan deskripsi statis.
Iterasi di 480p, render di 1080p — Gunakan tingkat termurah untuk menyempurnakan prompt, lalu tingkatkan resolusi setelah komposisi terkunci. Gunakan seed tetap agar perubahan bermakna.
Batasi prompt pada satu ketukan — Klip 10 detik hanya dapat menampung satu atau dua momen naratif. Hindari menjejalkan skrip multi-adegan ke dalam satu prompt.
Edit video panjang di pasca produksi — Untuk konten lebih dari 20 detik, hasilkan beberapa klip LTX-2.3 dan gabungkan di NLE Anda.
Gunakan penguncian seed untuk A/B testing — Saat membandingkan dua varian prompt, atur seed yang sama untuk mengisolasi perubahan prompt dari varians kebisingan.

Untuk konten animasi dari karya seni yang ada, padukan LTX-2.3 dengan LTX-2.3 Image-to-Video untuk menjaga konsistensi gaya di seluruh kampanye.

Pertanyaan yang Sering Diajukan

Apa itu LTX-2.3 Text-to-Video?

LTX-2.3 adalah model fondasi audio-video berbasis DiT yang menghasilkan video dan audio tersinkronisasi dari prompt teks dalam satu proses, tersedia melalui REST API di WaveSpeedAI.

Berapa biaya LTX-2.3?

Harga mulai dari $0,10 untuk klip 480p 5 detik dan naik hingga $0,80 untuk klip 1080p 20 detik — ditagih per generasi tanpa langganan yang diperlukan.

Bisakah saya menggunakan LTX-2.3 melalui API?

Ya. LTX-2.3 tersedia melalui REST API WaveSpeedAI tanpa cold start. Kirimkan prompt, resolusi, dan durasi, lalu terima URL video dengan audio yang tertanam.

Apakah LTX-2.3 menghasilkan audio secara otomatis?

Ya — audio diproduksi bersama dengan video dalam proses model yang sama. Anda dapat membiarkan model menyimpulkan audio dari konteks visual atau mendeskripsikan suara secara eksplisit dalam prompt untuk kontrol yang lebih ketat.

Berapa lama video LTX-2.3 bisa dibuat?

Setiap generasi mendukung 5 hingga 20 detik. Untuk video yang lebih panjang, hasilkan beberapa klip dan edit bersama di pasca produksi.

Mulai Hasilkan Video dan Audio dengan LTX-2.3 Hari Ini

LTX-2.3 menggabungkan sintesis video dan produksi audio ke dalam satu model yang hemat biaya dan berkualitas tinggi — sempurna bagi pemasar, kreator, dan pengembang yang membutuhkan klip cepat dan selesai tanpa harus mengelola alat terpisah.

Coba LTX-2.3 Text-to-Video di WaveSpeedAI →