Genie 3 : Rédiger des descriptions de monde efficaces
Guide pour rédiger des prompts efficaces pour Genie 3, basé sur l'analyse de démos et les principes des modèles de monde.
Bonjour, c’est Dora. Fin janvier 2026, je continuais à obtenir des mondes flottants et sans conséquences depuis une version de Genie 3 que je testais — magnifiques à la première image, puis une physique qui ressemblait à un rêve. Mes prompts sonnaient juste dans ma tête, mais les sorties dérivaient. Les portes ne s’ouvraient pas vraiment. La gravité s’oubliait.
Alors j’ai ralenti. J’ai traité les prompts moins comme de la poésie et davantage comme une spec courte et simple. Une fois que j’ai fait ça, les mondes ont commencé à tenir ensemble. Pas parfaits, mais plus stables. Voici comment j’aborde désormais les prompts Genie 3, encadrés par ce qui a vraiment aidé sur des tâches réelles.
Structure de prompt pour les modèles de monde
J’ai arrêté d’écrire des prompts fleuris et j’ai commencé à en écrire des petits, ennuyeux — le genre qu’un coéquipier pourrait parcourir rapidement et sur lequel s’appuyer. Les modèles de monde répondent bien à ça. Ma base comporte quatre parties :
- Décor : où et quand. Restez concret. « Ruelle étroite au crépuscule », pas « ambiance urbaine mystérieuse ».
- Dynamiques : ce qui bouge et comment. Nommez les forces, les contraintes et les déclencheurs.
- Agent : qui ou quoi agit. Caméra à la première personne ou vue latérale ? Humain ou objet ? Quelles capacités ?
- Objectifs/affordances : ce qui peut être fait ici. Les portes s’ouvrent, les leviers se tirent, les échelles se grimpent.
J’écris ces éléments en une à trois phrases, puis une ligne de contraintes. C’est tout. Quand je vais plus loin, j’obtiens généralement des contradictions (et le modèle choisit la mauvaise).
Une structure que j’ai beaucoup réutilisée :
- Phrase 1 : un lieu concret + heure de la journée + éclairage.
- Phrase 2 : l’agent contrôlable + caméra + verbes de mouvement.
- Phrase 3 : l’interaction clé et son résultat.
- Ligne de contraintes : 1 à 3 courtes contraintes (physique, caméra, rythme).
Pourquoi c’est important : les modèles de monde ne se contentent pas de dessiner, ils simulent des patterns. Si vous dites « rapide » et « stable », vous demandez deux rythmes différents. Si vous ne dites pas vers où pointe la gravité, il devine. Réduire l’ambiguïté aide le modèle à choisir des valeurs par défaut stables.
Pour une compréhension plus approfondie de la façon dont Google Genie 3 peut être utilisé pour simuler ces patterns et bien plus, consultez notre article détaillé : Qu’est-ce que Google Genie 3 ?
Signaux qui m’ont indiqué que la structure fonctionnait :
- Moins de tremblements de caméra sur 3 à 5 générations du même seed
- Objets conservant leur masse d’une image à l’autre (plus de tasses flottantes)
- Interactions se complétant en moins de 6 secondes au lieu de s’étirer sur 15
Si une scène continuait à vaciller, je retirais d’abord les adjectifs, sans en ajouter davantage. Plus simple l’emportait généralement.
Techniques de description d’environnement
Décrire des environnements pour un modèle de monde est différent de styliser une seule image. J’ai eu de meilleurs résultats quand je :
- Ancrai l’espace avec deux ou trois surfaces dures. « Sol en pavés mouillés, murs en briques à gauche/droite, porte métallique au fond. » Les surfaces dures indiquent le contact, les reflets et le frottement.
- Nommais les affordances explicitement. Si un levier doit être tiré, dites « levier à tirer à hauteur de poitrine ». Si une porte doit s’ouvrir vers l’intérieur, indiquez le côté des charnières.
- Fixais l’échelle en termes humains. « Bordure à hauteur de genou », « garde-corps à hauteur de taille », « ruelle large comme un camion ». Le modèle cale les mouvements sur ces repères.
- Donnais une seule source lumineuse avec direction. « Enseigne néon au-dessus de la porte, lumière violette de gauche à droite. » Cela a réduit le scintillement des ombres et aidé à empêcher la caméra de chercher un centre d’intérêt.
- Définissais l’encombrement comme des zones, pas des listes. « Caisses empilées le long du mur droit » fonctionnait mieux que de nommer chaque objet. Trop de noms rendait la scène bruyante sans ajouter de comportement utile.
Frictions rencontrées :
- Les matériaux vagues conduisaient à une physique glissante. « Sol » faisait glisser les personnages ; « tapis de gym caoutchouté » donnait de la traction.
- Les agencements surchargés brouillaient le déplacement. Quand j’entassais six accessoires dans une petite pièce, les agents hésitaient près des coins.
- L’heure de la journée sans direction lumineuse n’apportait pas grand-chose. « Matin » seul stabilisait rarement les ombres.
Quand une scène semblait encore fragile, j’ajoutais un indice physique supplémentaire (comme « vent soufflant de gauche à droite » ou « pluie fine avec éclaboussures visibles »). Les petits indices physiques amélioraient la cohérence plus que les mots de style supplémentaires.
Contrôle du style et de l’esthétique
Le style est tentant à poursuivre en premier. J’essayais de le garder pour la fin. Une fois que le monde se comportait bien, je peaufinais l’apparence :
- Utilisez un seul ancre de style, pas trois. « Caméra DV des années 1990 » ou « grain de film doux ». Empiler « cinématographique, vintage, granuleux » troublait le mouvement.
- Liez le style à la physique, pas seulement à la couleur. « Caméra portée à l’épaule avec léger balancement » est un style qui définit aussi le comportement de la caméra.
- Mentionnez les équivalents d’objectif seulement si nécessaire. « Grand angle 28mm » aidait parfois dans les espaces confinés, mais parler d’optique peut écraser les indices de mouvement.
- Texturez avec des verbes, pas des adjectifs. « Des particules de poussière dérivent dans un rayon de soleil » surpasse « onirique, brumeux, éthéré ». Les verbes donnent au modèle quelque chose à animer.
Par rapport aux modèles vidéo seuls comme Gen-3 de Runway, j’ai remarqué que les prompts de modèles de monde réagissent plus fortement aux actions et aux affordances qu’à la seule apparence. Si vous venez de Gen-3, vous devrez peut-être réduire votre pile de style et augmenter les lignes d’espace et d’action.
Quand le style combattait le comportement, je retirais d’abord le style. Une scène simple et crédible vaut mieux qu’une belle scène mais glissante.
10 exemples de prompts analysés
Voici les prompts Genie 3 exacts que j’ai utilisés ou des variantes proches. Je les ai exécutés 3 à 5 fois fin janvier 2026, en modifiant une variable à la fois. Je présente le prompt et ce qui a changé en pratique.
Scènes photoréalistes
- « Ruelle étroite au crépuscule avec sol en pavés mouillés et murs en briques à gauche et à droite. Marche à la première personne vers une porte métallique sous une enseigne néon clignotante. Atteindre la poignée et pousser la porte vers l’intérieur pour l’ouvrir. » Contraintes : portée stable, pluie fine, gravité vers le bas.
Résultat : La porte s’est ouverte de manière fiable en ~4–6s. La pluie fine a aidé à vendre le frottement : les pas ont arrêté de glisser. Sans « pousser vers l’intérieur », la porte s’ouvrait parfois dans le mauvais sens.
- « Petite cuisine la nuit, bourdonnement de fluorescent au plafond. Troisième personne, caméra à hauteur de taille suivant une personne portant une tasse fumante jusqu’à une table en bois. Poser la tasse : petite éclaboussure : la vapeur s’enroule. » Contraintes : pas de travelling de caméra, léger cliquetis, ombres stables.
Résultat : La vapeur et la petite éclaboussure sont apparues dans 4/5 exécutions. Si j’oubliais « table en bois », la tasse glissait légèrement sur les surfaces brillantes. Nommer le matériau avait son importance.
- « Quai de métro, heure creuse, éclairage blanc froid. Vue latérale d’un voyageur qui enjambe une ligne de sécurité jaune, s’arrête, et revient en arrière. » Contraintes : vitesse constante, pas de coupes.
Résultat : Mouvement d’avancer-corriger clairement visible. Quand j’ai retiré « s’arrête et revient en arrière », le modèle a improvisé avec un geste de la main ou une vérification du téléphone — plausible, mais pas le propos.
- « Couloir de bureau avec sol en moquette, murs en verre à droite. Jogging à la première personne vers une porte à code : la main entre le code : la porte s’ouvre avec un clic. » Contraintes : léger bruit de respiration, clavier à hauteur de poignet, gravité vers le bas.
Résultat : Meilleur avec « clavier à hauteur de poignet ». Sans ça, les mains flottaient vers le haut. Le bruit de respiration (même comme un mot) nuançait le rythme et aidait à éviter les mouvements robotiques.
- « Parking couvert, plafond bas, béton brillant. Troisième personne pendant qu’une valise à roulettes passe sur un dos-d’âne, vacille, puis se stabilise. » Contraintes : caméra fixe, léger écho, reflets cohérents.
Résultat : Le vacillement n’apparaissait que quand je disais « passe sur un dos-d’âne ». Si j’écrivais « traverse une bosse », le vacillement des roues disparaissait souvent. Les verbes avec indices de contact ont aidé.
Environnements stylisés
- « Ville en diorama de papier en vue latérale à midi. Bâtiments en carton, nuages peints sur des poulies. Un personnage découpé court et tire un levier rouge : un pont-levis s’abaisse. » Contraintes : couches en parallaxe, bords nets, gravité vers le bas.
Résultat : La séquence levier-et-pont a tenu proprement. Quand j’ai demandé « aquarelle vintage + carton + encre », les bords ont bavé et le pont a saccadé. Une seule ancre de style a préservé la mécanique.
- « Canyon désertique en low-poly dans une chaude lumière de coucher de soleil. Troisième personne pendant qu’un avatar sphérique descend en roulant une pente de sable et vire à gauche sur un pont en planches. » Contraintes : vitesse de roulement constante, léger dérapage sur le sable, pas de roulis de caméra.
Résultat : Le virage a fonctionné dans 3/5 exécutions. Ajouter « pas de roulis de caméra » a arrêté une inclinaison agaçante qui faisait paraître la pente plus raide qu’elle ne l’était.
- « Taverne cosy isométrique, pixel art, palette de 32 couleurs. Un sprite de barman essuie le bar : un sprite de client fait signe : une enseigne suspendue se balance quand la porte s’ouvre. » Contraintes : caméra isométrique fixe, 1 période d’oscillation.
Résultat : L’oscillation était la mieux synchronisée quand je spécifiais « 1 période d’oscillation ». Sans ça, l’enseigne se balançait trop longtemps et détournait l’attention des sprites.
- « Chemin forestier à l’encre et au lavis dans une légère brume. Pas à la première personne par-dessus un tronc moussu, la caméra plonge avec le pas, puis se redresse. » Contraintes : pas de pied doux, léger balancement de tête, brume reste fine.
Résultat : La plongée de caméra a bien rendu le pas. Ajouter « la brume reste fine » a empêché le modèle de cacher le tronc avec une brume dramatique.
- « Skatepark en DV rétro, fin d’après-midi. Troisième personne suivant un skateur qui ollie un petit bord, atterrit, léger bruit des roues. » Contraintes : légère instabilité portée à l’épaule, bord à hauteur de cheville, ombres longues.
Résultat : « Bord à hauteur de cheville » a fixé l’échelle et amélioré la hauteur de l’ollie. Sans ça, le trick devenait parfois un saut sans contact avec le bord.
Notes sur l’itération :
- J’ai essayé chaque prompt avec et sans une contrainte. Retirer « gravité vers le bas » a de nouveau rendu les scènes flottantes — évident dans la ruelle et le skatepark.
- Les prompts plus courts surpassaient les plus longs. La plupart des miens se situaient à ~30–45 mots plus les contraintes.
- Les seeds (quand disponibles) m’ont aidée à comparer les changements. J’ai gardé une petite grille : 3 seeds × 2 variations, ~6 exécutions par idée. Ça semble pointilleux, mais ça a fait gagner du temps.
Quelques limites que je n’ai pas pu corriger :
- Le texte précis comme les chiffres d’un clavier restait flou — je me suis concentrée sur l’action, pas la lisibilité.
- Les puzzles longs à plusieurs étapes (trois interactions ou plus) avaient tendance à dériver à partir de la deuxième étape. Les diviser en séquences plus courtes fonctionnait mieux.
- Les sols très réfléchissants faisaient parfois fondre les ombres d’une coupe à l’autre. Préciser « reflets cohérents » aidait, mais ne corrigeait pas tout à chaque fois.





