Modèle de Prompt Seedance 2.0 : Framework Copier-Coller pour Mouvement + Caméra + Style

Vous voulez créer des vidéos cinématographiques comme Seedance 2.0 ? Essayez le WaveSpeed Cinematic Video Generator pour créer des vidéos cinématographiques de qualité Seedance 2.0 dès maintenant.

Bonjour, je suis Dora. Tout a commencé par un petit problème : j’accumulais les quasi-ratés. Les séquences ressemblaient à ce que je voulais, puis dérivaient vers une ambiance différente dès la troisième prise. Je n’avais pas besoin de plus de fonctionnalités. J’avais besoin d’une façon plus stable de communiquer avec le modèle. Alors, au fil de quelques sessions entre janvier et février 2026, j’ai construit un template de prompt Seedance 2.0 que je pouvais réutiliser sans surveiller chaque génération.

Anatomie du prompt pour réduire la dérive (sujet → action → caméra → style → contraintes)

Le plus grand progrès est venu de l’établissement d’un ordre strict et de son respect. Quand je rédigeais des prompts comme une phrase, Seedance 2.0 se débrouillait bien sur le premier temps, puis dérivait. Quand je les écrivais comme une fiche à remplir, la dérive diminuait nettement.

Voici la structure en cinq parties que j’utilise maintenant :

Sujet : Qui ou ce dont la scène parle, au singulier si possible.
Action : Ce que fait le sujet, en langage simple.
Caméra : Comment on le voit — taille du plan + mouvement + indication optique si nécessaire.
Style : L’apparence visuelle, pas une liste d’ambiances. Une référence d’ancrage vaut mieux que six adjectifs.
Contraintes : Ce qu’il faut garder fixe, ce qu’il faut exclure, et le timing.

Pourquoi cet ordre fonctionne en pratique :

Le sujet en premier ancre le modèle sur un centre de gravité. Si je mentionne plusieurs sujets au début, le modèle divise son attention par la suite.
L’action ensuite est l’ancre cinétique. Elle indique au modèle ce qui doit bouger même si le style change.
La caméra établit ensuite la logique de cadrage afin que le modèle ne « redécide » pas de l’optique toutes les quelques secondes.
Le style, placé tard dans la structure, ajoute de la saveur sans détourner l’action.
Les contraintes en dernier agissent comme des garde-fous, notamment sur la couleur, l’éclairage, et les mains/visages.

Un template de prompt Seedance 2.0 compact que je copie à chaque fois :

Sujet : [une personne/un objet, âge ou matière si pertinent]

Action : [expression verbale précise, présent]

Caméra : [taille du plan] + [mouvement] + [angle], [focale approximative ou “grand-angle/normal/téléobjectif”]

Style : [une référence visuelle d’ancrage : film/procédé/artiste], [éclairage], [traitement des couleurs]

Contraintes : [liste d’exclusions], [fréquence d’images/tempo], [durée ou timing des temps forts], [notes de cohérence]

Un exemple qui a tenu sa forme sur trois coupes :

Sujet : Tasse en céramique des années 30 sur un établi, blanc mat
Action : De la vapeur monte pendant qu’une main fait glisser la tasse dans le cadre et marque une pause
Caméra : Plan moyen rapproché, lent dolly-in, hauteur des yeux, objectif normal
Style : Douce lumière matinale de fenêtre, léger grain pellicule, palette atténuée
Contraintes : Pas de logos, pas d’incrustations de texte, pas de zooms brusques, maintenir la main stable 2s

Ce qui a changé pour moi : moins de recadrages surprises. Avant, je demandais « cosy, caméra à l’épaule, lumière matinale » et j’obtenais un push-in à la première prise, un panoramique tremblant à la deuxième. Le template a stabilisé le comportement optique sans que j’aie à tout micromanager.

Vocabulaire de mouvement + caméra qui change vraiment les résultats

J’ai arrêté d’utiliser des mots d’ambiance comme des mots de caméra. « Dynamique » ne signifie rien pour un objectif. Les indications de mouvement précises, elles, ont un effet. Quand j’ai remplacé les prompts vagues par des prompts concrets, le mouvement de Seedance 2.0 est devenu plus intentionnel.

Cela correspond à la façon dont la sémantique du mouvement et de la caméra est décrite dans l’aperçu technique public de Seedance 2.0, où le mouvement de caméra est traité comme un signal de conditionnement de premier ordre plutôt qu’un accessoire stylistique.

Ce qui a bien fonctionné dans mes tests :

Les mots de mouvement liés à des métaphores de rig : dolly, traveling, grue, caméra à l’épaule, stabilisateur. « À l’épaule » ajoutait un micro-tremblement ; « stabilisateur » restait fluide.
La vitesse comme scalaire : lent, moyen, rapide, associé à une distance (« lent dolly-in, 30–60 cm »). Même des chiffres approximatifs aidaient.
La taille du plan en premier : large / moyen / serré verrouille la composition. Le modèle cesse de recentrer les visages en cours de prise.
L’angle avec un but : hauteur des yeux pour la neutralité, angle bas pour la présence, angle haut pour la vulnérabilité ou une vue d’ensemble.
Les indications optiques comme catégories : grand-angle (effet 24–28 mm), normal (effet 35–50 mm), téléobjectif (effet 85 mm+). J’évite les millimètres exacts sauf nécessité absolue.

J’ai aussi constaté que combiner deux verbes de mouvement poussait le modèle vers le chaos. Un seul verbe par plan gardait les choses propres. Quand j’avais besoin d’un mouvement composé (par exemple, panoramique + dolly), je l’écrivais en temps forts : « Début : lent dolly-in. Puis : doux panoramique vers la droite sur les 2 dernières secondes. » Seedance respectait la séquence mieux que si j’avais tout collé dans une seule clause.

Aide-mémoire de plan (large/moyen/serré, panoramique/dolly/caméra à l’épaule)

Large : établit l’espace et le contexte. Idéal pour les produits en situation ou les scènes d’équipe. À associer avec un lent dolly ou un plan fixe. Éviter les panoramiques rapides, sauf si on veut du flou de bougé.
Moyen : sujet + un peu de contexte. Sûr pour les dialogues et l’UGC. La caméra à l’épaule donne ici un rendu personnel ; le stabilisateur, un rendu soigné.
Serré : détail et émotion. Fonctionne avec de petits push-ins ; les panoramiques paraissent heurtés. Les indications téléobjectif aident à garder le fond flou.
Panoramique : rotation latérale. Utilisé pour révéler des informations adjacentes. Garder lent : cela amplifie le flou de bougé.
Dolly/Traveling : mouvement physique vers/de/le long du sujet. Effet cinématographique même à faible vitesse. Mon choix par défaut pour les plans produit.
Caméra à l’épaule : léger balancement et micro-tremblement. Idéal pour l’UGC, risqué pour les incrustations de texte.

Je garde cette liste près de ma fenêtre de prompt. Elle m’incite à choisir un mouvement clair plutôt qu’un paragraphe d’ambiance.

Liste de contrôle des prompts négatifs (ce qu’il faut bannir explicitement)

Les interdictions me semblaient lourdes au début, mais elles ont évité des reprises. Voici les récidivistes dans mes sessions :

Bruit visuel : pas d’incrustations de texte, pas de filigranes, pas d’UI flottante, pas de lens flares sauf indication
Dérive d’identité : pas de personnages supplémentaires, pas de foule, pas de miroirs reflétant d’autres personnes
Chaos de caméra : pas de snap zooms, pas de whip pans, pas d’angles néerlandais, pas de jump cuts
Artefacts corporels : pas de doigts supplémentaires, pas de mains déformées, pas de tasses/poignées déformées, pas de bords qui fondent
Image de marque : pas de logos, pas d’étiquettes, pas de marques reconnaissables
Couleur/étalonnage : pas d’éclairage néon, pas de teal/orange prononcé, pas de saturation cartoonesque
Environnement : pas de pluie/brouillard/fumée sauf indication, pas de confettis, pas de particules de poussière
Audio/texte : si vous ajoutez une voix off en post-production, bannissez les sous-titres automatiques

Je n’utilise pas tout cela à chaque fois. J’en sélectionne 3 à 5 qui comptent pour la scène. Trop de négatifs peut ternir l’image. Si les artefacts persistent après deux essais, je change de stratégie : j’ajuste la formulation du sujet ou simplifie la note de caméra plutôt que d’empiler des interdictions.

5 templates à copier-coller (UGC, pub produit, cinématique, face caméra, montage)

Ce ne sont pas des formules magiques : ce sont des points de départ. Je colle l’un d’eux, je remplis les crochets, et je garde le reste de mon énergie pour le timing et la musique.

UGC (effet téléphone en main)

Sujet : [personne, tranche d’âge, cadre]

Action : [parle de façon décontractée de X tout en faisant Y]

Caméra : Moyen, perspective téléphone à la main, léger balancement, hauteur des yeux, effet objectif normal

Style : Lumière intérieure naturelle, rendu non étalonné, léger flou de bougé

Contraintes : Pas de sous-titres, pas de snap zooms, garder les mains naturelles, 8–10s, garder l’arrière-plan simple

Pub produit (propre et stable)

Sujet : [nom du produit/matière/couleur]

Action : [tourne lentement / glisse dans le cadre / mouvement hero subtil]

Caméra : Gros plan à plan moyen rapproché, lent dolly-in, horizon verrouillé, effet normal à téléobjectif

Style : Lumière principale douce + léger contour, étalonnage neutre, léger grain pellicule

Contraintes : Pas de logos/étiquettes, pas de lens flares, maintenir le dernier plan 2s, 6–8s au total

Cinématique (ambiance en premier sans perdre le contrôle)

Sujet : [personnage ou lieu]

Action : [temps fort précis : attend, se retourne, respire, entre dans la lumière]

Caméra : Large pour établir 2s puis lent push vers moyen, stabilisateur fluide, hauteur des yeux

Style : [une seule référence d’ancrage, ex. : « lumière naturelle nuageuse, bleus atténués »]

Contraintes : Pas d’angles néerlandais, pas de foule, pas de néon, maintenir le rendu nuageux, 10–12s

Face caméra (stable et lisible)

Sujet : [description du présentateur]

Action : [délivre une ligne claire]

Caméra : Plan moyen rapproché, trépied fixe ou très subtil dolly-in, hauteur des yeux

Style : Lumière principale douce à 45°, séparation nette avec l’arrière-plan, étalonnage neutre

Contraintes : Pas de sous-titres automatiques, pas de whip pans, tons chair naturels, 12–15s, garder l’axe du regard centré

Montage (temps forts rapides sans chaos)

Sujet : [thème, ex. : « rituel café du matin »]

Action : Temps 1 [contexte large], Temps 2 [mains en gros plan], Temps 3 [détail de la vapeur], Temps 4 [gorgée]

Caméra : Chaque temps 2s, taille de plan claire par temps, pas de mouvements composés : transitions par coupe

Style : Lumière et palette cohérentes à travers tous les temps

Contraintes : Pas d’incrustations de texte, pas de speed ramps, garder le tempo régulier, 8–10s au total

Petite note issue des tests : quand je veux un bord produit net, je remplace « à l’épaule » par « dolly » même dans l’UGC. Ça paraît un poil moins authentique mais l’impression est plus propre pour les incrustations ensuite.

Si vous voulez un rappel de vocabulaire, le guide des tailles de plan de StudioBinder est pratique, et leur aperçu des mouvements de caméra correspond assez bien à la façon dont les modèles interprètent les mots de mouvement.

Règles de décision — quand reformuler vs changer la référence

Quand une session rate son objectif, j’essaie de ne pas paniquer. J’applique ce petit arbre de décision :

Si le cadrage est mauvais mais que l’action est bonne : reformuler. Resserrer d’abord la Caméra (taille du plan + un mouvement). Garder le Sujet et l’Action identiques.
Si le mouvement semble mauvais (trop tremblant/rapide) : reformuler. Remplacer « à l’épaule » ↔ « stabilisateur », et définir une vitesse. Ne pas toucher au Style pour l’instant.
Si le style ou la couleur dérive alors que le mouvement et le cadrage sont corrects : reformuler. Remplacer la ligne Style par une seule référence plus forte et supprimer les adjectifs superflus.
Si le sujet continue de muter (personnes supplémentaires, accessoires changeants) après deux reformulations : changer la référence. Simplifier le Sujet. Moins de descripteurs, un seul nom.
Si des artefacts se répètent (mains, logos, lens flares bizarres) sur trois essais : changer les contraintes ou le plan de tournage. Parfois un gros plan se bat contre le modèle : reculer vers un plan moyen.

En termes de temps : je m’accorde deux reformulations rapides (moins de 5 minutes au total). Si je corrige encore la même erreur, je change la ligne de référence ou le choix de plan. Cela m’a évité de passer une heure à poncer une mauvaise idée.

Pourquoi c’est important : le modèle tend à respecter la première instruction forte. Si elle est mauvaise, modifier les lignes en aval ne sauvera pas le résultat.

Une dernière note de terrain : les prompts courts avec cette structure surpassent de loin les longs et poétiques. Mes meilleures prises faisaient moins de 60 mots plus les contraintes.

Vous voulez créer des vidéos cinématographiques comme Seedance 2.0 ? Essayez le WaveSpeed Cinematic Video Generator pour créer des vidéos cinématographiques de qualité Seedance 2.0 dès maintenant.

Essayez Seedance 2.0 Mini — la version plus rapide et moins chère, à 50 % du prix standard : Seedance 2.0 Mini API. Nouveau dans la gamme ? Seedance 2.0 API.

Anatomie du prompt pour réduire la dérive (sujet → action → caméra → style → contraintes)

Vocabulaire de mouvement + caméra qui change vraiment les résultats

Aide-mémoire de plan (large/moyen/serré, panoramique/dolly/caméra à l’épaule)

Liste de contrôle des prompts négatifs (ce qu’il faut bannir explicitement)

5 templates à copier-coller (UGC, pub produit, cinématique, face caméra, montage)

Règles de décision — quand reformuler vs changer la référence

Articles associés

Présentation de ByteDance Seedance 2.0 Mini sur WaveSpeedAI

Claude Fable 5 et le basculement vers Opus 4.8 expliqué

API GLM-5.2 : Tarification, contexte 1M et routage en production

Prix de GPT-5.4 Mini : coûts d'entrée, mis en cache et de sortie

API MAI-Image-2.5 : Ce que les développeurs doivent savoir

Prix MiniMax M3 : Coût de l'API à contexte long pour les développeurs