Présentation d'Alibaba WAN 2.6 Reference To Video Flash sur WaveSpeedAI

Alibaba WAN 2.6 Reference-to-Video Flash est maintenant disponible sur WaveSpeedAI

La vitesse rencontre la cohérence. WaveSpeedAI est ravi d’annoncer le lancement d’Alibaba WAN 2.6 Reference-to-Video Flash, la variante rapide et distillée du modèle de génération vidéo avec préservation d’identité d’Alibaba. Si vous travaillez sur des workflows de référence vers vidéo et souhaitiez des résultats plus rapides, ce modèle est fait pour vous — offrant la même cohérence de personnage et la même narration multi-plans en une fraction du temps de génération.

Qu’est-ce que WAN 2.6 Reference-to-Video Flash ?

WAN 2.6 Reference-to-Video Flash est la version optimisée pour la vitesse du modèle standard WAN 2.6 Reference-to-Video. Distillé à partir du modèle complet, il conserve la capacité essentielle qui rend la famille WAN 2.6 R2V unique : vous téléchargez des images de référence de personnages, d’accessoires ou de scènes, rédigez un prompt textuel décrivant la vidéo souhaitée, et le modèle génère de nouveaux plans vidéo qui préservent fidèlement l’identité et l’apparence de vos sujets de référence.

La version Flash atteint une inférence significativement plus rapide — générant des vidéos en secondes plutôt qu’en minutes — tout en maintenant la qualité visuelle, la cohérence du mouvement et la préservation d’identité qui définissent la série WAN 2.6. Elle prend en charge jusqu’à 5 images de référence, une sortie en 720p et 1080p, des durées de 5 ou 10 secondes, et une génération audio synchronisée optionnelle.

Fonctionnalités principales

Entrée multi-référence : Téléchargez jusqu’à 5 images de référence pour guider la génération. Plusieurs angles et points de vue du même sujet permettent une meilleure préservation d’identité — une amélioration substantielle par rapport aux workflows typiques à référence unique
Préservation d’identité à grande vitesse : Le modèle Flash maintient les traits du visage, les vêtements, les proportions corporelles et les caractéristiques distinctives de vos sujets de référence dans chaque image générée, désormais avec des temps d’attente considérablement réduits
Composition multi-plans : Choisissez entre un plan continu unique ou une composition multi-plans automatique qui divise votre prompt en plusieurs plans cohérents avec des transitions fluides — narration cinématographique à partir d’un seul appel API
Génération audio intégrée : Activez une audio synchronisée optionnelle, incluant musique de fond, sons ambiants et effets Foley, adaptés au contenu vidéo généré. Aucun doublage en post-production requis
Flexibilité de résolution : Générez en 720p (1280×720 ou 720×1280) ou 1080p (1920×1080 ou 1080×1920) selon vos besoins de sortie — paysage ou portrait
Expansion de prompt : Un amplificateur de prompt intégré peut automatiquement affiner vos descriptions en prompts plus riches et détaillés, améliorant la qualité de génération sans nécessiter une expertise en ingénierie de prompts

Cas d’utilisation concrets

Contenu pour les réseaux sociaux axé sur les personnages

Créez des TikToks, Reels et YouTube Shorts mettant en scène des personnages cohérents sur plusieurs vidéos. Téléchargez quelques photos de votre personnage ou mascotte de marque, décrivez la scène et générez du contenu conforme à votre marque à grande échelle. La vitesse Flash rend l’itération rapide pratique — testez des dizaines de variations dans le temps que le modèle standard met à produire une poignée de résultats.

Prototypage marketing et publicitaire

Générez des démos de produits, des publicités de marque et des concepts de campagnes mettant en scène des personnes ou personnages spécifiques avec une identité cohérente sur tous les plans. Utilisez le mode multi-plans pour produire des séquences publicitaires structurées avec audio synchronisée, réduisant des jours de pré-production à quelques minutes.

Narration et animation

Construisez de courtes séquences narratives où les personnages maintiennent leur apparence à travers les changements de scène. La capacité multi-référence vous permet d’établir plusieurs personnages en une seule génération, tandis que le mode multi-plans gère automatiquement les transitions et le rythme. Les scénaristes et storyboarders peuvent visualiser les scènes presque aussi vite qu’ils peuvent les décrire.

Pré-visualisation rapide pour le cinéma

Les réalisateurs et directeurs de la photographie peuvent pré-visualiser des plans et des séquences en utilisant des photos de référence d’acteurs et de lieux. La vitesse du modèle Flash permet un retour créatif en temps réel — ajustez le prompt, régénérez et voyez le résultat en secondes plutôt que d’attendre dans de longues files de rendu.

Vidéos e-commerce et produits

Transformez des photos de produits statiques en vidéos de produits dynamiques avec une image de marque cohérente. Téléchargez des images de produits comme références, décrivez le mouvement et l’environnement souhaités, et générez un contenu vidéo soigné prêt pour les fiches produits et les publicités.

Démarrer sur WaveSpeedAI

L’utilisation de WAN 2.6 Reference-to-Video Flash via l’API WaveSpeedAI est simple :

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.6/reference-to-video-flash",
    {
        "reference_urls": [
            "https://example.com/character-front.jpg",
            "https://example.com/character-side.jpg"
        ],
        "prompt": "A woman walks through a sunlit garden, turning to smile at the camera",
        "size": "1280*720",
        "duration": 5,
        "shot_type": "multi"
    },
)

print(output["outputs"][0])

Options de configuration

Paramètre	Description
`reference_urls`	1 à 5 images de référence pour guider le personnage et la scène
`prompt`	Description textuelle de la scène vidéo et du mouvement
`size`	Résolution de sortie : 720p ou 1080p, paysage ou portrait
`duration`	Durée de la vidéo : 5 ou 10 secondes
`shot_type`	`single` pour un plan continu, `multi` pour des compositions variées
`enable_audio`	Génère une audio synchronisée (activé par défaut)
`enable_prompt_expansion`	Améliore automatiquement votre prompt (désactivé par défaut)

Tarification

Résolution	Durée	Audio désactivé	Audio activé
720p	5s	0,25 $	0,50 $
720p	10s	0,375 $	0,75 $
1080p	5s	0,40 $	0,80 $
1080p	10s	0,60 $	1,20 $

À partir de seulement 0,25 $ par vidéo — une fraction de ce que des modèles comparables facturent pour une génération avec identité cohérente.

Conseils pro

Utilisez plusieurs images de référence sous différents angles pour la préservation d’identité la plus précise
Sélectionnez le type de plan multi pour des compositions cinématographiques et dynamiques avec des transitions automatiques
Désactivez l’audio quand vous n’en avez pas besoin — le traitement est plus rapide et coûte deux fois moins cher
Utilisez le 720p pour le prototypage rapide et les brouillons, puis passez au 1080p pour les rendus de production finale
Ajoutez un prompt négatif comme "blurry, distorted, deformed" pour affiner la qualité de sortie
Si votre vidéo générée manque de son, ajoutez une formulation comme “with background ambience” à votre prompt

Pourquoi WaveSpeedAI ?

WaveSpeedAI fournit l’infrastructure idéale pour WAN 2.6 Reference-to-Video Flash :

Aucun démarrage à froid : Chaque requête commence immédiatement — pas d’attente pour l’initialisation du modèle
Inférence rapide : Une infrastructure optimisée associée à l’architecture distillée du modèle Flash signifie que vous obtenez des résultats en secondes
Tarification abordable : Génération vidéo avec identité cohérente à partir de 0,25 $, avec une facturation transparente par génération
API REST simple : Intégrez la génération référence vers vidéo dans n’importe quelle application ou workflow avec un seul appel API

Commencez à générer dès aujourd’hui

Alibaba WAN 2.6 Reference-to-Video Flash intègre la génération vidéo avec préservation d’identité dans des workflows créatifs en temps réel. C’est la même entrée multi-référence, la même cohérence de personnage et la même narration multi-plans — délivrées à la vitesse qu’exigent vos projets.

Que vous itériez sur des concepts publicitaires, constituiez une bibliothèque de contenu axé sur les personnages, ou pré-visualisiez des scènes pour la production, ce modèle supprime l’attente et vous permet de vous concentrer sur le travail créatif.

Essayez-le dès maintenant sur wavespeed.ai/models/alibaba/wan-2.6/reference-to-video-flash.