Présentation de xAI Grok Imagine Video Reference To Video sur WaveSpeedAI

Grok Imagine Video Reference-to-Video : Générez des vidéos IA cohérentes à partir de plusieurs images de référence

Et si vous pouviez fournir à un modèle d’IA sept images de référence différentes — un personnage, un lieu, des accessoires — et obtenir en retour une seule vidéo cohérente préservant chaque détail visuel ? C’est exactement ce que propose Grok Imagine Video Reference-to-Video. Développé par xAI, ce modèle de référence multi-images génère des clips vidéo dynamiques qui maintiennent l’identité, le style et la composition de scène dans chaque image. Il est désormais disponible sur WaveSpeedAI sans démarrage à froid et avec une tarification à l’usage.

Dans un paysage où la génération vidéo par IA évolue rapidement — Grok Imagine ayant récemment décroché la première place sur l’Artificial Analysis Video Arena aussi bien en text-to-video qu’en image-to-video — la variante reference-to-video va encore plus loin en vous permettant de contrôler précisément ce qui apparaît dans votre vidéo générée grâce à sept images sources au maximum.

Comment fonctionne Grok Imagine Video Reference-to-Video

La plupart des générateurs vidéo par IA acceptent une seule image ou une invite textuelle. Grok Imagine Video Reference-to-Video dépasse cette limitation en acceptant 1 à 7 images de référence accompagnées d’une invite textuelle décrivant le mouvement souhaité, le mouvement de caméra et la scène.

Voici le flux de travail :

Fournissez des images de référence — Téléchargez jusqu’à 7 images via URL. Celles-ci peuvent inclure des personnages, des objets, des environnements ou des références de style.
Rédigez une invite de mouvement — Décrivez comment la scène doit se déplacer. Utilisez @image1, @image2, etc. pour référencer des images spécifiques téléchargées dans votre invite.
Choisissez la durée et la résolution — Sélectionnez 6 ou 10 secondes de sortie en 720p ou 480p.
Générez — Le modèle synthétise toutes les références en une seule vidéo cohérente avec des mouvements fluides et naturels.

Sous le capot, Grok Imagine Video est propulsé par le moteur Aurora de xAI, une architecture autoregressive à mélange d’experts entraînée sur des milliards d’exemples. Le modèle prédit les jetons d’image de manière séquentielle, ce qui lui confère un contrôle précis sur la génération et maintient la cohérence visuelle entre les images — essentiel pour les scénarios multi-références où la préservation de l’identité est primordiale.

Essayez Grok Imagine Video Reference-to-Video sur WaveSpeedAI →

Fonctionnalités clés de Grok Imagine Video Reference-to-Video

Entrée multi-images de référence (jusqu’à 7 images) — Fournissez au modèle un personnage tiré d’une photo, un arrière-plan d’une autre et des accessoires provenant de plusieurs autres. Le modèle les compose en une scène unifiée.
Préservation de l’identité et du style — Les personnages, objets et environnements maintiennent une apparence cohérente tout au long de la vidéo générée. Les traits du visage, les détails vestimentaires et les proportions restent stables d’une image à l’autre.
Références d’images adressables — Utilisez @image1, @image2, etc. dans votre invite pour diriger précisément l’influence de chaque image de référence sur le résultat.
Options de durée flexibles — Générez des clips de 6 secondes pour des tests rapides et du contenu sur les réseaux sociaux, ou des vidéos de 10 secondes pour des scènes plus complètes.
Résolution 720p et 480p — Choisissez une qualité supérieure pour la sortie finale ou un traitement 480p plus rapide pour une itération rapide.
Accès API REST sur WaveSpeedAI — Aucun démarrage à froid, inférence instantanée et facturation simple à l’usage à 0,05 $ par seconde.

Meilleurs cas d’utilisation de Grok Imagine Video Reference-to-Video

Vidéos de personnages cohérents sur plusieurs plans

Les projets de cinéma et d’animation exigent une cohérence des personnages entre les scènes. Fournissez au modèle des images de référence d’un personnage sous plusieurs angles — face, profil, trois-quarts — et générez des clips vidéo où ce personnage se déplace naturellement tout en conservant son apparence exacte. Cela est précieux pour les créateurs qui développent du contenu épisodique ou des narrations multi-scènes sans un pipeline de production complet.

Vidéos de présentation de produits à partir de photos

Les équipes e-commerce peuvent transformer un ensemble de photos de produits statiques en vidéos de présentation dynamiques. Téléchargez des images d’un produit sous différents angles, dans différents contextes ou aux côtés d’articles complémentaires, puis décrivez le mouvement — une rotation lente, une séquence de déballage ou une démonstration lifestyle. Le modèle préserve fidèlement les détails du produit dans la vidéo générée.

Création de contenu pour les réseaux sociaux à grande échelle

Les créateurs de contenu pour TikTok, Instagram Reels et YouTube Shorts peuvent générer des clips vidéo engageants à partir de collections d’images en quelques secondes. Combinez la photo d’un créateur avec un arrière-plan de marque et des images de produits pour produire du contenu vidéo conforme à la charte graphique sans faire appel à un vidéographe ni monter manuellement des séquences.

Composition de scènes multi-angles

Les professionnels de la visualisation architecturale, du design d’intérieur et de l’immobilier peuvent fournir des images de référence d’un espace sous différents angles, puis générer des vidéos de type visite guidée qui maintiennent la précision spatiale et la cohérence du design. Décrivez le mouvement de caméra à travers l’espace, et le modèle synthétise une scène cohérente.

Vidéos marketing cohérentes avec la marque

Les équipes marketing travaillant avec des chartes graphiques strictes peuvent fournir des ressources de marque — logos, palettes de couleurs, images de produits, photos de porte-paroles — comme images de référence. Le modèle génère du contenu vidéo respectant la marque sans nécessiter un alignement manuel en post-production.

Prototypage storyboard-vers-vidéo

Les directeurs artistiques et les story-boarders peuvent télécharger des images de storyboard individuelles comme images de référence et générer des prototypes vidéo approximatifs montrant comment une séquence pourrait s’enchaîner. Cela accélère considérablement le processus de révision en pré-production pour les projets commerciaux et narratifs.

Tarification et accès API de Grok Imagine Video Reference-to-Video

Grok Imagine Video Reference-to-Video est disponible sur WaveSpeedAI avec une facturation simple à la seconde :

Durée	Coût
6 secondes	0,30 $
10 secondes	0,50 $

Tarif de facturation : 0,05 $ par seconde, basé sur la durée sélectionnée.

C’est nettement plus abordable que de nombreuses plateformes concurrentes. Combiné aux démarrages sans latence et à l’inférence instantanée de WaveSpeedAI, vous obtenez des résultats rapides sans payer pour du temps de calcul inactif.

Exemple de code API

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "images": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-videos/flower.mp4"
    ],
    "duration": 6,
    "resolution": "720p"
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/x-ai/grok-imagine-video/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Paramètres API

Paramètre	Requis	Description
`images`	Oui	Tableau de 1 à 7 URL d’images de référence
`prompt`	Oui	Description du mouvement avec références @image optionnelles
`duration`	Non	6 ou 10 secondes (valeur par défaut variable)
`resolution`	Non	`720p` (par défaut) ou `480p`

Commencez avec Grok Imagine Video Reference-to-Video →

Conseils pour de meilleurs résultats avec Grok Imagine Video

Utilisez des images de référence de haute qualité et bien éclairées. La préservation de l’identité par le modèle dépend de la qualité de l’entrée. Des photos nettes et uniformément éclairées produisent une sortie vidéo plus propre et plus cohérente.
Référencez explicitement les images dans votre invite. Utilisez @image1, @image2, etc. pour indiquer au modèle quelle référence correspond à quel élément dans votre scène. Cela vous donne un contrôle compositionnel précis.
Gardez les références et l’invite alignées. Si vos images de référence montrent un personnage spécifique, décrivez les actions de ce personnage dans l’invite. Des références et des invites mal alignées produisent une sortie confuse.
Commencez avec moins de références, puis ajoutez-en davantage. Débutez avec 2 à 3 images pour établir la scène principale, puis ajoutez des références pour des détails supplémentaires. Cela vous aide à identifier la contribution de chaque image au résultat final.
Testez d’abord avec des clips de 6 secondes. Utilisez la durée plus courte pour itérer sur votre combinaison d’invite et de références avant de vous engager sur des générations de 10 secondes. À 0,30 $ par test, l’itération rapide est abordable.
Utilisez la 480p pour les brouillons, la 720p pour les versions finales. Optez pour une résolution inférieure pendant la phase d’exploration créative, puis passez à la 720p pour la sortie finale.

Explorez les modèles Grok Imagine associés sur WaveSpeedAI

Grok Imagine Video Reference-to-Video fait partie d’une famille plus large de modèles vidéo et image de xAI disponibles sur WaveSpeedAI :

Grok Imagine Video Image-to-Video — Générez une vidéo à partir d’une seule image
Grok Imagine Video Text-to-Video — Créez une vidéo à partir d’invites textuelles uniquement
Grok Imagine Video Extend — Prolongez des vidéos existantes avec une continuation fluide
Grok Imagine Video Edit — Modifiez des vidéos existantes avec des instructions textuelles
Grok Imagine Image Text-to-Image — Générez des images à partir d’invites textuelles

Questions fréquemment posées sur Grok Imagine Video Reference-to-Video

Qu’est-ce que Grok Imagine Video Reference-to-Video ?

Grok Imagine Video Reference-to-Video est le modèle de référence multi-images de xAI qui génère des vidéos à partir de jusqu’à 7 images de référence, en préservant l’identité, le style et la composition de scène avec des mouvements naturels et fluides.

Quel est le prix de Grok Imagine Video Reference-to-Video ?

La tarification est de 0,05 $ par seconde — 0,30 $ pour une vidéo de 6 secondes et 0,50 $ pour une vidéo de 10 secondes. La facturation est basée sur la durée sélectionnée et il n’y a pas de frais d’abonnement sur WaveSpeedAI. Vous ne payez que ce que vous générez.

Puis-je utiliser Grok Imagine Video Reference-to-Video via API ?

Oui. Grok Imagine Video Reference-to-Video est disponible en tant qu’API REST sur WaveSpeedAI sans démarrage à froid, avec une inférence instantanée et une facturation simple à l’usage. Vous pouvez l’intégrer dans n’importe quelle application en utilisant le SDK Python WaveSpeed ou des requêtes HTTP directes.

Combien d’images de référence puis-je utiliser avec Grok Imagine Video ?

Vous pouvez fournir entre 1 et 7 images de référence. Chaque image peut représenter un élément différent — personnages, objets, arrière-plans ou références de style — et vous pouvez les adresser individuellement dans votre invite en utilisant @image1 à @image7.

Comment Grok Imagine Video se compare-t-il aux autres modèles vidéo par IA ?

Grok Imagine a récemment obtenu la première place sur l’Artificial Analysis Video Arena aussi bien en génération text-to-video qu’image-to-video, surpassant Runway Gen-4.5, Sora 2 Pro et Google Veo 3.1. La variante reference-to-video ajoute un contrôle multi-images que la plupart des concurrents limitent à 4 entrées de référence ou moins.

Prêt à générer des vidéos cohérentes préservant l’identité à partir de plusieurs images de référence ? Essayez Grok Imagine Video Reference-to-Video sur WaveSpeedAI — sans démarrage à froid, tarification abordable à la seconde et accès API instantané.