Présentation de Alibaba WAN 2.7 Reference To Video sur WaveSpeedAI

Wan 2.7 Reference-to-Video : Créez des vidéos IA cohérentes en personnages à partir de plusieurs références

Maintenir l’identité des personnages entre les clips vidéo générés par IA a été l’un des problèmes les plus difficiles dans la génération vidéo — jusqu’à maintenant. Wan 2.7 Reference-to-Video du Tongyi Lab d’Alibaba résout ce problème en vous permettant d’injecter plusieurs vidéos et images de référence, puis de générer de nouvelles scènes où les personnages, les accessoires et les styles visuels restent parfaitement cohérents. Disponible dès maintenant sur WaveSpeedAI sans démarrages à froid et avec une tarification abordable à l’usage, ce modèle ouvre la voie à la génération vidéo multi-personnages de qualité production via une simple API REST.

Que vous soyez un cinéaste en train de pré-visualiser des scènes complexes, une marque créant des campagnes avec un porte-parole, ou un créateur de contenu construisant des récits multi-plans, Wan 2.7 Reference-to-Video élimine le problème d’incohérence qui a frappé les workflows vidéo IA.

Comment fonctionne Wan 2.7 Reference-to-Video

Wan 2.7 Reference-to-Video est construit sur l’architecture Diffusion Transformer (DiT) d’Alibaba avec un mécanisme Full Attention qui traite simultanément les relations spatiales et temporelles sur l’ensemble de la séquence vidéo. C’est pourquoi l’identité des personnages reste stable tout au long de la durée du clip — le modèle ne génère pas simplement image par image, il comprend l’intégralité de la séquence d’un coup.

Le workflow est simple :

Téléchargez des vidéos de référence — fournissez une ou plusieurs vidéos sources contenant les personnages ou éléments visuels que vous souhaitez préserver.
Ajoutez une image de référence optionnelle — complétez avec une image fixe pour un guidage visuel supplémentaire.
Rédigez votre prompt — décrivez la nouvelle scène en langage naturel, en référençant les personnages par position (ex. : “Le personnage de la Vidéo 1 marche dans un jardin pendant que la Vidéo 2 regarde depuis un banc”).
Générez — le modèle produit une nouvelle vidéo qui place vos personnages référencés dans la scène décrite avec une identité préservée, un style cohérent et un mouvement naturel.

Le modèle prend en charge jusqu’à 5 entrées de référence combinées (vidéos et images ensemble), une sortie en résolution 720p ou 1080p, des formats d’image incluant le 16:9, et des durées de clip de 5, 10 ou 15 secondes. Un système d’indexation de prompt unique vous permet de contrôler précisément quelle référence apparaît où — les vidéos sont numérotées en premier (Vidéo 1, Vidéo 2), puis les images poursuivent la séquence (Image 3, Image 4).

Fonctionnalités clés de Wan 2.7 Reference-to-Video

Support de référence multi-vidéo — Combinez des personnages, objets ou éléments visuels provenant de plusieurs vidéos sources dans une seule scène cohérente. Aucun autre modèle de cette catégorie ne gère aussi proprement les références vidéo multi-sources.
Cohérence des personnages avec identité verrouillée — L’architecture Full Attention préserve les traits du visage, les vêtements, les proportions corporelles et les détails stylistiques tout au long du clip généré, sans la dérive d’identité courante dans les anciens modèles vidéo basés sur la diffusion.
Indexation de prompt pour un contrôle précis — Référencez des personnages spécifiques en utilisant la syntaxe “Vidéo 1”, “Vidéo 2”, “Image 3” dans votre prompt. Cela vous donne un contrôle de niveau réalisateur sur qui fait quoi dans la scène générée.
Support de prompt négatif — Spécifiez les éléments à exclure de la sortie, empêchant ainsi un mélange visuel non intentionnel entre les sources de référence.
Expansion automatique du prompt — Activez l’expansion du prompt pour laisser le modèle enrichir les prompts courts avec des détails supplémentaires, produisant une sortie plus riche sans ingénierie manuelle du prompt.
Sortie en 1080p — Générez en résolution Full HD pour des résultats prêts pour la production, ou utilisez le 720p pour une itération plus rapide pendant le processus créatif.
Jusqu’à 15 secondes par clip — Générez des scènes plus longues qui donnent aux personnages le temps de se déplacer, d’interagir et de s’exprimer — suffisant pour des courts métrages sur les réseaux sociaux et des coupures commerciales.

Meilleurs cas d’usage pour Wan 2.7 Reference-to-Video

Narration multi-personnages et courts métrages

Placez des personnages provenant de vidéos de référence séparées dans des scènes partagées qu’ils n’ont jamais réellement tournées ensemble. Un cinéaste peut filmer des acteurs individuellement, puis utiliser Wan 2.7 R2V pour générer des scènes d’interaction — des personnages assis ensemble, marchant côte à côte ou ayant une conversation dans un nouvel environnement. Cela réduit considérablement les coûts de production pour les projets indépendants et la pré-visualisation.

Campagnes vidéo avec porte-parole de marque

Les équipes marketing peuvent générer des dizaines de variations vidéo conformes à la marque mettant en vedette un porte-parole ou une mascotte de marque cohérent. Téléchargez une vidéo de référence de votre personnage de marque une fois, puis générez-le dans différents environnements — dans une cuisine, dans un bureau, en extérieur — tout en maintenant une identité visuelle parfaite tout au long de la campagne. Aucun re-tournage nécessaire.

Contenu pour les réseaux sociaux à grande échelle

Les créateurs de contenu peuvent produire des vidéos courtes cohérentes en personnages en volume. Prenez une vidéo de référence d’un personnage ou d’un persona récurrent, décrivez de nouveaux scénarios et générez du contenu frais quotidiennement. La préservation de l’identité garantit que votre audience reconnaît le personnage dans chaque publication, renforçant la cohérence de la marque sans les frais généraux de production.

Démos de produits et vidéos explicatives

Combinez une vidéo de référence d’un présentateur avec des images de produits pour générer des vidéos de démonstration soignées. Le présentateur maintient son apparence et son style tout en interagissant avec des produits dans de nouveaux contextes — parfait pour les listes e-commerce, les lancements de produits et le contenu tutoriel.

Conception créative et storyboarding

Les réalisateurs et les équipes créatives peuvent rapidement prototyper des scènes multi-personnages avant de s’engager dans une production complète. Générez 10 variations d’une scène avec différentes mises en scène, éclairages ou interactions de personnages en quelques minutes. Utilisez le 720p pour une itération rapide, puis rendez le concept gagnant en 1080p.

Contenu fan et crossovers de personnages

Combinez des éléments visuels de différentes sources dans une seule scène cohérente. Des personnages provenant de différentes vidéos de référence peuvent interagir naturellement, ouvrant des possibilités créatives pour le fan art, les mashups et la narration visuelle expérimentale.

Formation et contenu éducatif

Générez un contenu vidéo cohérent animé par un instructeur sur plusieurs leçons. Téléchargez une référence de l’instructeur une fois, puis produisez-le dans différents environnements éducatifs — devant un tableau blanc, dans un laboratoire, sur le terrain — en maintenant une continuité visuelle tout au long d’une série de cours entière.

Tarification et accès API de Wan 2.7 Reference-to-Video

WaveSpeedAI propose Wan 2.7 Reference-to-Video avec une tarification simple par génération :

Durée	720p	1080p
5 secondes	1,00 $	1,60 $
10 secondes	1,50 $	2,40 $
15 secondes	2,00 $	3,20 $

Les rendus 1080p coûtent 1,6× le tarif 720p. La tarification inclut un coût fixe pour le traitement des vidéos de référence.

La mise en route prend quelques minutes. Installez le SDK WaveSpeed et effectuez votre premier appel API :

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/reference-to-video",
    {
        "prompt": "The character in Video 1 walks through a sunlit garden, smiling and looking at the flowers",
        "videos": ["https://example.com/reference-video.mp4"],
        "resolution": "720p",
        "duration": 5,
    },
)

print(output["outputs"][0])

WaveSpeedAI exécute Wan 2.7 Reference-to-Video sans démarrages à froid — votre première requête est aussi rapide que la centième. Aucun délai de provisionnement GPU, aucun frais de calcul inactif. Vous ne payez que ce que vous générez.

Essayez Wan 2.7 Reference-to-Video maintenant →

Conseils pour de meilleurs résultats avec Wan 2.7 Reference-to-Video

Utilisez des vidéos de référence claires et distinctes. Plus chaque vidéo de référence est visuellement distincte, mieux le modèle préserve l’identité de chaque personnage dans la sortie. Évitez les références avec des sujets d’apparence similaire.
Référencez les personnages par index dans votre prompt. Utilisez toujours “Vidéo 1”, “Vidéo 2”, etc. pour spécifier quel personnage fait quoi. La numérotation suit l’ordre de téléchargement pour les vidéos, puis continue pour les images de référence.
Commencez par le 720p pour l’itération. Testez la composition de votre scène, la formulation du prompt et le positionnement des personnages en 720p avant de vous engager dans un rendu final en 1080p. Cela économise à la fois du temps et de l’argent.
Utilisez des prompts négatifs pour éviter le mélange. Si vous remarquez que les styles visuels se mélangent entre les sources de référence, ajoutez un prompt négatif pour exclure les éléments indésirables spécifiques.
Activez l’expansion du prompt pour les prompts courts. Si votre prompt est bref ou manque de détails de scène, activer l’expansion du prompt permet au modèle de remplir automatiquement les détails cinématographiques.
Gardez les vidéos de référence courtes et ciblées. Les clips de référence qui présentent clairement le sujet que vous souhaitez préserver produiront une meilleure cohérence d’identité que des séquences longues et variées.

Foire aux questions sur Wan 2.7 Reference-to-Video

Qu’est-ce que Wan 2.7 Reference-to-Video ?

Wan 2.7 Reference-to-Video est un modèle de génération vidéo IA d’Alibaba qui crée de nouvelles scènes vidéo tout en préservant l’identité, l’apparence et le style des personnages de vos vidéos et images de référence.

Combien coûte Wan 2.7 Reference-to-Video ?

La tarification commence à 1,00 $ par clip de 5 secondes en 720p, jusqu’à 3,20 $ pour une vidéo de 15 secondes en 1080p. Il n’y a pas de frais d’abonnement — vous payez par génération sur WaveSpeedAI.

Puis-je utiliser Wan 2.7 Reference-to-Video via API ?

Oui. Wan 2.7 Reference-to-Video est disponible en tant qu’API REST sur WaveSpeedAI sans démarrages à froid, avec une tarification à l’usage et le SDK Python WaveSpeed pour une intégration facile.

Combien de vidéos de référence puis-je utiliser à la fois ?

Vous pouvez fournir jusqu’à 5 entrées de référence combinées (vidéos et images ensemble). Chaque référence est numérotée séquentiellement dans votre prompt pour un contrôle précis sur quel personnage apparaît où.

En quoi Wan 2.7 Reference-to-Video diffère-t-il de Wan 2.7 Image-to-Video ?

Wan 2.7 Image-to-Video anime une seule image de référence en vidéo. Reference-to-Video accepte plusieurs références vidéo, préservant l’identité entre les sources et permettant des scènes multi-personnages avec une identité cohérente — une capacité fondamentalement différente pour les workflows de production.

Commencez à créer des vidéos cohérentes en personnages avec Wan 2.7

Wan 2.7 Reference-to-Video apporte une capacité qui était auparavant impossible dans la génération vidéo IA : la préservation fiable de l’identité multi-personnages à partir de références vidéo. Combiné à l’inférence instantanée et à l’API simple de WaveSpeedAI, il est prêt pour les workflows de production dès aujourd’hui.

Explorez la suite complète Wan 2.7 sur WaveSpeedAI — incluant Text-to-Video, Image-to-Video, Video Edit et Video Extend.

Essayez Wan 2.7 Reference-to-Video sur WaveSpeedAI →