Memperkenalkan xAI Grok Imagine Video Reference To Video di WaveSpeedAI

Grok Imagine Video Reference-to-Video: Hasilkan Video AI yang Konsisten dari Beberapa Gambar Referensi

Bayangkan jika Anda bisa memberikan tujuh gambar referensi berbeda kepada model AI — karakter, lokasi, sekumpulan properti — dan mendapatkan satu video yang koheren yang mempertahankan setiap detail visual? Itulah yang dihadirkan oleh Grok Imagine Video Reference-to-Video. Dibangun oleh xAI, model reference-to-video multi-gambar ini menghasilkan klip video dinamis yang mempertahankan identitas, gaya, dan komposisi adegan di setiap frame, dan kini tersedia di WaveSpeedAI tanpa cold start dan dengan harga bayar-per-penggunaan.

Di tengah lanskap generasi video AI yang berkembang pesat — dengan Grok Imagine yang baru-baru ini menduduki posisi #1 di Artificial Analysis Video Arena untuk text-to-video maupun image-to-video — varian reference-to-video membawa segalanya lebih jauh dengan memungkinkan Anda mengendalikan dengan tepat apa yang muncul dalam video yang dihasilkan menggunakan hingga tujuh gambar sumber.

Cara Kerja Grok Imagine Video Reference-to-Video

Sebagian besar generator video AI hanya menerima satu gambar atau prompt teks. Grok Imagine Video Reference-to-Video melampaui batasan itu dengan menerima 1 hingga 7 gambar referensi bersama prompt teks yang mendeskripsikan gerakan, pergerakan kamera, dan adegan yang diinginkan.

Berikut alur kerjanya:

Sediakan gambar referensi — Unggah hingga 7 gambar melalui URL. Gambar-gambar ini dapat mencakup karakter, objek, lingkungan, atau referensi gaya.
Tulis prompt gerakan — Deskripsikan bagaimana adegan harus bergerak. Gunakan @image1, @image2, dan seterusnya untuk merujuk gambar yang diunggah secara spesifik dalam prompt Anda.
Pilih durasi dan resolusi — Pilih output 6 atau 10 detik pada resolusi 720p atau 480p.
Hasilkan — Model mensintesis semua referensi menjadi satu video yang kohesif dengan gerakan yang mulus dan natural.

Di balik layar, Grok Imagine Video ditenagai oleh mesin Aurora dari xAI, sebuah arsitektur autoregressive mixture-of-experts yang dilatih dengan miliaran contoh. Model ini memprediksi token gambar secara berurutan, yang memberinya kendali ketat atas generasi dan membantu menjaga konsistensi visual antar frame — sangat penting untuk skenario multi-referensi di mana pelestarian identitas sangat diperlukan.

Coba Grok Imagine Video Reference-to-Video di WaveSpeedAI →

Fitur Utama Grok Imagine Video Reference-to-Video

Input referensi multi-gambar (hingga 7 gambar) — Berikan model sebuah karakter dari satu foto, latar belakang dari foto lain, dan properti dari beberapa foto lagi. Model akan mengomposisikannya menjadi satu adegan yang terpadu.
Pelestarian identitas dan gaya — Karakter, objek, dan lingkungan mempertahankan tampilan yang konsisten sepanjang video yang dihasilkan. Fitur wajah, detail pakaian, dan proporsi tetap terjaga di setiap frame.
Referensi gambar yang dapat dialamatkan — Gunakan @image1, @image2, dan seterusnya dalam prompt Anda untuk mengarahkan dengan tepat bagaimana setiap gambar referensi memengaruhi hasil akhir.
Opsi durasi yang fleksibel — Hasilkan klip 6 detik untuk pengujian cepat dan konten media sosial, atau video 10 detik untuk adegan yang lebih lengkap.
Resolusi 720p dan 480p — Pilih kualitas lebih tinggi untuk output final atau pemrosesan 480p yang lebih cepat untuk iterasi yang lebih efisien.
Akses REST API di WaveSpeedAI — Tanpa cold start, inferensi instan, dan penagihan bayar-per-penggunaan sederhana sebesar $0,05 per detik.

Kasus Penggunaan Terbaik untuk Grok Imagine Video Reference-to-Video

Video Karakter yang Konsisten di Berbagai Pengambilan Gambar

Proyek film dan animasi membutuhkan konsistensi karakter di setiap adegan. Berikan model gambar referensi karakter dari berbagai sudut — depan, samping, tiga perempat — dan hasilkan klip video di mana karakter tersebut bergerak secara natural sambil mempertahankan tampilan aslinya. Ini sangat berharga bagi para kreator yang membangun konten episodik atau narasi multi-adegan tanpa pipeline produksi penuh.

Video Pameran Produk dari Foto Produk

Tim e-commerce dapat mengubah sekumpulan foto produk statis menjadi video pameran yang dinamis. Unggah gambar produk dari berbagai sudut, dalam berbagai pengaturan, atau bersama item pelengkap, lalu deskripsikan gerakannya — rotasi lambat, urutan unboxing, atau demonstrasi gaya hidup. Model ini mempertahankan detail produk dengan setia di seluruh video yang dihasilkan.

Pembuatan Konten Media Sosial dalam Skala Besar

Para kreator konten untuk TikTok, Instagram Reels, dan YouTube Shorts dapat menghasilkan klip video menarik dari koleksi gambar dalam hitungan detik. Gabungkan foto kreator dengan latar belakang bermerek dan gambar produk untuk menghasilkan konten video yang sesuai merek tanpa harus menyewa videografer atau mengedit footage secara manual.

Komposisi Adegan dari Berbagai Sudut

Para profesional visualisasi arsitektur, desain interior, dan real estate dapat menyediakan gambar referensi dari berbagai sudut sebuah ruang, lalu menghasilkan video bergaya walkthrough yang mempertahankan akurasi spasial dan konsistensi desain. Deskripsikan pergerakan kamera melalui ruang tersebut, dan model akan mensintesis adegan yang kohesif.

Video Pemasaran yang Konsisten dengan Merek

Tim pemasaran yang bekerja dengan panduan merek yang ketat dapat menyediakan aset merek — logo, palet warna, gambar produk, foto juru bicara — sebagai gambar referensi. Model menghasilkan konten video yang tetap sesuai merek tanpa memerlukan penyelarasan pasca-produksi secara manual.

Prototyping Storyboard-ke-Video

Direktur kreatif dan seniman storyboard dapat mengunggah frame storyboard individual sebagai gambar referensi dan menghasilkan prototipe video kasar yang menunjukkan bagaimana sebuah urutan mungkin mengalir. Ini secara dramatis mempercepat proses tinjauan pra-produksi untuk proyek komersial dan naratif.

Harga dan Akses API Grok Imagine Video Reference-to-Video

Grok Imagine Video Reference-to-Video tersedia di WaveSpeedAI dengan penagihan per-detik yang transparan:

Durasi	Biaya
6 detik	$0,30
10 detik	$0,50

Tarif penagihan: $0,05 per detik, berdasarkan durasi yang dipilih.

Harga ini jauh lebih terjangkau dibandingkan banyak platform kompetitor. Dikombinasikan dengan tanpa cold start dan inferensi instan dari WaveSpeedAI, Anda mendapatkan hasil yang cepat tanpa membayar untuk waktu komputasi yang tidak digunakan.

Contoh Kode API

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "images": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-videos/flower.mp4"
    ],
    "duration": 6,
    "resolution": "720p"
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/x-ai/grok-imagine-video/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Parameter API

Parameter	Wajib	Deskripsi
`images`	Ya	Array 1–7 URL gambar referensi
`prompt`	Ya	Deskripsi gerakan dengan referensi @image opsional
`duration`	Tidak	6 atau 10 detik (default bervariasi)
`resolution`	Tidak	`720p` (default) atau `480p`

Mulai dengan Grok Imagine Video Reference-to-Video →

Tips untuk Hasil Terbaik dengan Grok Imagine Video

Gunakan gambar referensi berkualitas tinggi dengan pencahayaan yang baik. Pelestarian identitas model hanya sebaik inputnya. Foto yang tajam dan berpendar merata menghasilkan output video yang lebih bersih dan konsisten.
Referensikan gambar secara eksplisit dalam prompt Anda. Gunakan @image1, @image2, dan seterusnya untuk memberi tahu model referensi mana yang sesuai dengan elemen mana dalam adegan Anda. Ini memberi Anda kendali komposisi yang presisi.
Jaga keselarasan antara referensi dan prompt. Jika gambar referensi Anda menampilkan karakter tertentu, deskripsikan tindakan karakter tersebut dalam prompt. Referensi dan prompt yang tidak selaras menghasilkan output yang membingungkan.
Mulai dengan lebih sedikit referensi, lalu tambahkan lebih banyak. Mulailah dengan 2–3 gambar untuk membangun adegan inti, lalu tambahkan referensi untuk detail tambahan. Ini membantu Anda mengisolasi gambar mana yang berkontribusi pada apa dalam output akhir.
Uji dengan klip 6 detik terlebih dahulu. Gunakan durasi yang lebih pendek untuk mengiterasi kombinasi prompt dan referensi Anda sebelum berkomitmen pada generasi 10 detik. Dengan harga $0,30 per pengujian, iterasi yang cepat sangat terjangkau.
Coba 480p untuk draf, 720p untuk final. Gunakan resolusi lebih rendah selama fase eksplorasi kreatif, lalu beralih ke 720p untuk output akhir.

Jelajahi Model Grok Imagine Terkait di WaveSpeedAI

Grok Imagine Video Reference-to-Video adalah bagian dari keluarga model video dan gambar xAI yang lebih luas yang tersedia di WaveSpeedAI:

Grok Imagine Video Image-to-Video — Hasilkan video dari satu input gambar
Grok Imagine Video Text-to-Video — Buat video hanya dari prompt teks
Grok Imagine Video Extend — Perpanjang video yang ada dengan kelanjutan yang mulus
Grok Imagine Video Edit — Edit video yang ada dengan instruksi teks
Grok Imagine Image Text-to-Image — Hasilkan gambar dari prompt teks

Pertanyaan yang Sering Diajukan tentang Grok Imagine Video Reference-to-Video

Apa itu Grok Imagine Video Reference-to-Video?

Grok Imagine Video Reference-to-Video adalah model referensi multi-gambar dari xAI yang menghasilkan video dari hingga 7 gambar referensi, mempertahankan identitas, gaya, dan komposisi adegan dengan gerakan natural yang mulus.

Berapa biaya Grok Imagine Video Reference-to-Video?

Harga adalah $0,05 per detik — $0,30 untuk video 6 detik dan $0,50 untuk video 10 detik. Penagihan didasarkan pada durasi yang dipilih, dan tidak ada biaya langganan di WaveSpeedAI. Anda hanya membayar untuk apa yang Anda hasilkan.

Bisakah saya menggunakan Grok Imagine Video Reference-to-Video melalui API?

Ya. Grok Imagine Video Reference-to-Video tersedia sebagai REST API di WaveSpeedAI tanpa cold start, inferensi instan, dan penagihan bayar-per-penggunaan yang sederhana. Anda dapat mengintegrasikannya ke dalam aplikasi apa pun menggunakan WaveSpeed Python SDK atau permintaan HTTP langsung.

Berapa banyak gambar referensi yang dapat saya gunakan dengan Grok Imagine Video?

Anda dapat menyediakan antara 1 dan 7 gambar referensi. Setiap gambar dapat mewakili elemen yang berbeda — karakter, objek, latar belakang, atau referensi gaya — dan Anda dapat mengalamatkannya secara individual dalam prompt menggunakan @image1 hingga @image7.

Bagaimana Grok Imagine Video dibandingkan dengan model video AI lainnya?

Grok Imagine baru-baru ini meraih peringkat #1 di Artificial Analysis Video Arena untuk generasi text-to-video maupun image-to-video, mengungguli Runway Gen-4.5, Sora 2 Pro, dan Google Veo 3.1. Varian reference-to-video menambahkan kontrol multi-gambar yang pada sebagian besar kompetitor dibatasi hingga 4 atau lebih sedikit input referensi.

Siap menghasilkan video yang konsisten dan mempertahankan identitas dari beberapa gambar referensi? Coba Grok Imagine Video Reference-to-Video di WaveSpeedAI — tanpa cold start, harga per-detik yang terjangkau, dan akses API instan.