Memperkenalkan Alibaba WAN 2.7 Text-to-Video di WaveSpeedAI

WAN 2.7 Text-to-Video: Pembuatan Video AI Sinematik dengan Gerakan Tersinkronisasi Audio

WAN 2.7 Text-to-Video adalah model pembuatan video AI sinematik terbaru dari Alibaba, yang mengubah prompt teks biasa menjadi klip berkualitas tinggi dan koheren dengan gerakan stabil, detail tajam, dan kemampuan mengikuti instruksi yang kuat. Kini tersedia di WaveSpeedAI, WAN 2.7 menghadirkan dukungan input audio, kontrol negative prompt, dan opsi resolusi fleksibel bagi para kreator yang membangun iklan, video penjelasan, video musik, dan konten media sosial dalam skala besar.

Bagi tim yang membutuhkan output siap tayang tanpa kru produksi, WAN 2.7 menutup kesenjangan antara prompt teks dan klip jadi — menghasilkan video hingga 1080p yang mengikuti arahan kamera, petunjuk pencahayaan, dan perilaku subjek yang dijelaskan dalam bahasa natural.

Coba WAN 2.7 Text-to-Video di WaveSpeedAI →

Cara Kerja WAN 2.7 Text-to-Video

WAN 2.7 adalah model text-to-video berbasis difusi yang menginterpretasikan prompt bahasa natural dan mensintesisnya menjadi video yang koheren secara temporal. Berbeda dengan sistem text-to-video sebelumnya yang kesulitan menjaga konsistensi objek antar frame, WAN 2.7 mempertahankan identitas yang stabil, fisika yang masuk akal, dan gerakan kamera yang halus sepanjang durasi klip.

Model ini menerima prompt utama dan berbagai kontrol opsional:

Resolusi: Output 720p (default) atau 1080p
Rasio aspek: Default 16:9, dengan opsi fleksibel untuk vertikal 9:16, persegi 1:1, dan format widescreen sinematik
Durasi: 5, 10, atau 15 detik per klip
Negative prompt: Mengecualikan artefak, gaya, atau elemen yang tidak diinginkan
Input audio: Unggah trek untuk menyinkronkan ritme dan kecepatan visual
Prompt expansion: Mode opsional yang secara otomatis memperkaya prompt singkat dengan detail sinematik sebelum pembuatan
Seed: Mengunci output untuk iterasi yang dapat direproduksi

Pembuatan yang dikondisikan audio inilah yang membedakan WAN 2.7 dari kebanyakan API text-to-video. Sementara model pesaing merender visual secara terpisah, WAN 2.7 dapat menyelaraskan potongan, intensitas gerakan, dan kecepatan dengan trek musik atau narasi — menjadikannya langsung berguna untuk video musik, spot iklan, dan video penjelasan bernarasi.

Fitur Utama WAN 2.7 Text-to-Video

Kualitas visual sinematik — menghasilkan adegan detail dengan pencahayaan, kedalaman, dan komposisi yang akurat yang tetap bagus pada resolusi pengiriman 1080p.
Output tersinkronisasi audio — sediakan trek audio dan model akan menyesuaikan gerakan untuk mencocokkan, menghilangkan langkah potong-dan-rapikan manual dalam pasca produksi.
Kemampuan mengikuti instruksi yang kuat — gerakan kamera, palet warna, dan perilaku subjek yang dijelaskan dalam prompt muncul dalam video yang dihasilkan secara konsisten.
Kontrol negative prompt — secara eksplisit mengecualikan artefak umum (wajah buram, anggota tubuh terdistorsi, teks yang tidak diinginkan) untuk output yang lebih bersih.
Mode prompt expansion — prompt singkat diperkaya secara otomatis dengan detail adegan, ideal untuk alur kerja batch di mana Anda tidak ingin menulis deskripsi panjang.
Pembuatan yang dapat direproduksi — kunci seed setelah Anda menemukan hasil yang disukai dan lakukan iterasi pada resolusi atau durasi tanpa kehilangan tampilan.
Resolusi siap produksi — 720p untuk penyelesaian cepat, 1080p untuk hasil berkualitas klien.

Kasus Penggunaan Terbaik untuk WAN 2.7 Text-to-Video

Penceritaan Sinematik dan Film Pendek Naratif

Pembuat film dan pencerita dapat merender adegan atmosferik dan berbasis narasi dari prompt detail — mendeskripsikan sudut kamera, gaya pencahayaan, suasana, dan aksi subjek dalam satu paragraf dan mendapatkan kembali bidikan sinematik yang dapat digunakan. Gerakan stabil WAN 2.7 membuatnya kuat untuk establishing shot, dream sequence, dan sisipan naratif bergaya.

Konten Media Sosial dalam Skala Besar

Output vertikal 9:16, durasi klip 5 detik, dan pembuatan cepat membuat WAN 2.7 ideal untuk TikTok, Instagram Reels, dan YouTube Shorts. Brand dapat membuat puluhan variasi berbasis platform dari satu brief konsep — menguji hook dan gaya visual tanpa memesan satu hari pemotretan pun.

Produksi Pemasaran dan Periklanan

Agensi yang memproduksi iklan pre-roll, teaser produk, dan video penjelasan dapat mengganti footage stok dengan adegan yang dibuat khusus yang sesuai dengan kebutuhan brand yang tepat. Opsi durasi 15 detik cocok untuk penempatan iklan standar, dan output 1080p memenuhi sebagian besar spesifikasi pengiriman iklan digital secara langsung.

Video Musik dan Sinkronisasi Audio-Visual

Fitur input audio dirancang khusus untuk kreator musik. Unggah trek, deskripsikan dunia visual, dan WAN 2.7 menghasilkan video yang berdenyut dengan musik — hentakan drum selaras dengan potongan kamera, pergeseran suasana tercermin dalam perubahan pencahayaan. Musisi independen dapat memproduksi visualizer penuh tanpa menyewa sutradara.

Visualisasi Konsep untuk Pitching

Direktur kreatif, desainer produk, dan studio game dapat menggunakan WAN 2.7 untuk menghidupkan ide-ide tahap awal sebelum berkomitmen pada produksi. Klip 5 detik sudah cukup untuk mengkomunikasikan nada, palet, dan bahasa gerakan kepada pemangku kepentingan — mengubah konsep slide deck menjadi pratinjau bergerak dalam hitungan menit.

Konten Penjelasan dan Edukatif

Pembuat kursus dan tim pemasaran SaaS dapat mengilustrasikan konsep abstrak — aliran data, proses biologis, adegan bersejarah — dengan klip sinematik yang lebih menarik perhatian daripada diagram animasi. Padukan video yang dihasilkan dengan narasi dengan mengunggah narasi sebagai input audio.

Konten Bermerek untuk E-Commerce

Brand direct-to-consumer dapat menghasilkan B-roll lifestyle yang menampilkan kategori produk mereka — pengambilan gambar memasak untuk peralatan dapur, adegan luar ruangan untuk pakaian, pengaturan ambient untuk barang rumahan — dengan sebagian kecil biaya dari kontrak tim video.

Buat video WAN 2.7 pertama Anda →

Harga WAN 2.7 dan Akses API

WAN 2.7 Text-to-Video ditagih per detik video yang dihasilkan, dengan tarif flat yang jelas di setiap tingkat resolusi:

Durasi	720p	1080p
5d	$0,50	$0,75
10d	$1,00	$1,50
15d	$1,50	$2,25

720p: $0,10 per detik
1080p: $0,15 per detik (1,5× tarif dasar)

Tidak ada biaya langganan, tidak ada komitmen minimum, dan tidak ada cold start — bayar hanya untuk yang Anda hasilkan. Infrastruktur inferensi WaveSpeedAI berarti permintaan pertama Anda berjalan dengan latensi yang sama seperti permintaan keseribu.

Contoh API

Membuat video adalah satu panggilan REST menggunakan WaveSpeed Python SDK:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "enable_prompt_expansion": False,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/alibaba/wan-2.7/text-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Untuk pembuatan tersinkronisasi audio, berikan URL audio yang dapat diakses publik melalui parameter audio. Untuk mengecualikan artefak, tambahkan negative_prompt. Agar WAN 2.7 secara otomatis memperkaya prompt singkat, atur enable_prompt_expansion ke true.

Jika Anda membandingkan opsi di katalog WaveSpeedAI, Anda mungkin juga ingin mengevaluasi model text-to-video lainnya untuk gaya, latensi, atau trade-off biaya yang berbeda.

Tips untuk Hasil Terbaik dengan WAN 2.7

Spesifik tentang sinematografi. Sertakan sudut kamera (sudut rendah, overhead, dolly-in), gaya lensa (anamorphic, 35mm, wide), dan pencahayaan (golden hour, neon, bayangan keras). Prompt generik menghasilkan output generik.
Gunakan negative prompt untuk membersihkan output. Entri umum: “blurry, distorted faces, low contrast, watermark, text overlay, jittery motion.” Ini menghilangkan sekelompok artefak umum dalam satu parameter.
Aktifkan prompt expansion untuk prompt singkat. Jika Anda membuat batch dari daftar konsep singkat, prompt expansion menambahkan detail adegan yang menghasilkan hasil sinematik — tanpa Anda perlu menulis paragraf panjang.
Kunci seed setelah menemukan yang terbaik. Saat Anda mendapatkan tampilan yang sempurna di 720p, kunci seed dan jalankan ulang di 1080p untuk versi kualitas akhir dari klip yang sama.
Sesuaikan rasio aspek dengan platform. Gunakan 9:16 untuk sosial vertikal, 16:9 untuk YouTube dan pemutar web, 1:1 untuk postingan feed, dan widescreen sinematik untuk karya naratif — membuat pada rasio target lebih baik daripada memotong dalam pasca produksi.
Sinkronkan ke audio untuk pekerjaan musik dan iklan. Saat kecepatan penting, menyediakan trek audio di awal lebih cepat dan menghasilkan hasil yang lebih ketat daripada mencoba mengatur gerakan melalui bahasa prompt saja.

Pertanyaan yang Sering Diajukan

Apa itu WAN 2.7 Text-to-Video?

WAN 2.7 Text-to-Video adalah model text-to-video AI canggih dari Alibaba yang menghasilkan klip video berkualitas sinematik dari prompt bahasa natural, dengan sinkronisasi audio opsional, kontrol negative prompt, dan output 1080p.

Berapa biaya WAN 2.7?

WAN 2.7 ditagih per detik video yang dihasilkan: $0,10/detik pada 720p dan $0,15/detik pada 1080p. Klip 720p 5 detik berharga $0,50; klip 1080p 15 detik berharga $2,25. Tidak ada biaya langganan atau komitmen minimum.

Bisakah saya menggunakan WAN 2.7 melalui API?

Ya. WAN 2.7 tersedia melalui REST inference API dan Python SDK WaveSpeedAI tanpa cold start. Satu panggilan wavespeed.run() mengembalikan URL video yang dihasilkan.

Apakah WAN 2.7 mendukung input audio?

Ya — WAN 2.7 menerima trek audio opsional untuk menyinkronkan ritme, kecepatan, dan suasana video yang dihasilkan. Ini membuatnya sangat cocok untuk video musik, video penjelasan bernarasi, dan iklan dengan soundbed yang terdefinisi.

Resolusi dan rasio aspek apa yang didukung WAN 2.7?

WAN 2.7 menghasilkan video pada 720p atau 1080p, dengan rasio aspek fleksibel termasuk 16:9, 9:16, 1:1, dan widescreen sinematik — mencakup format pengiriman sosial, web, dan siaran dari satu API.

Mulai Membuat dengan WAN 2.7 Hari Ini

WAN 2.7 Text-to-Video menghadirkan kualitas sinematik, gerakan tersinkronisasi audio, dan resolusi siap produksi ke REST API yang sederhana — tanpa penguncian langganan atau cold start. Baik Anda memproduksi konten sosial dalam skala besar, membuat prototipe konsep iklan, atau membangun video musik dari awal, WAN 2.7 menempatkan pipeline kreatif penuh di balik satu prompt.