Guide ControlNet Z-Image-Turbo : Profondeur, Canny et Pose pour des Mises en Page Précises

Hé, mes amis. Comment ça va ? Je m’appelle Dora. La première fois que j’ai essayé de guider une image avec une pose en forme de bonhomme allumette, le résultat ressemblait à un mannequin qui s’était échappé d’une friperie. Pas catastrophique, juste… décalé. Je voulais que le modèle respecte la structure sans aplatir le style. Alors, en janvier 2026, j’ai passé quelques après-midis à tester ControlNet dans Z-Image-Turbo sur de petites tâches concrètes : transformer un croquis sur serviette en rendu propre, préserver la géométrie d’un bâtiment, et ajuster des poses de personnages sans perdre l’ambiance. Ce guide est le condensé de notes que j’aurais aimé avoir dès le premier jour — calme, pratique, et suffisant pour vous aider à décider si cela s’intègre à votre flux de travail.

Qu’est-ce que ControlNet ?

ControlNet est un moyen de diriger un modèle d’image avec des indices structurels — comme des contours, de la profondeur, ou une pose humaine — tout en laissant le modèle peindre dans son propre style. Au lieu de pousser les prompts plus fort ou d’empiler des tokens négatifs, on lui fournit une image de « contrôle » séparée qui capture l’ossature de la scène. Le modèle mélange ensuite structure et style, idéalement avec moins de lutte.

Séparer la structure du style

En pratique, je le vois comme ceci :

Le prompt et le checkpoint du modèle gèrent le style (éclairage, texture, ambiance).
ControlNet gère la structure (composition, contours, relations spatiales, pose).

Lorsque ces deux aspects restent dans leurs rôles, j’obtiens moins de résultats étranges. Si j’essaie de forcer la structure avec des astuces de prompt, je paie généralement en proportions bizarres ou en dérive lors des itérations suivantes.

Comment fonctionnent les modes de contrôle

Chaque mode extrait une carte différente à partir de votre entrée :

Le mode Depth (profondeur) estime les distances 3D. Il donne au modèle une perception du premier plan et de l’arrière-plan.
Le mode Canny extrait des contours nets. C’est direct mais fiable.
Le mode Pose repère les points clés et les squelettes humains. Idéal pour l’action ou la cohérence entre les images.

Z-Image-Turbo (dans mes tests de janvier 2026) expose ces modes comme des options ControlNet que l’on peut activer par requête. Les noms peuvent varier selon la plateforme, mais l’idée est la même. Si vous souhaitez la version formelle, le papier ControlNet et la documentation ControlNet de Stable Diffusion AUTOMATIC1111 sont les meilleures sources.

Les trois modes de contrôle expliqués

Mode Depth, relations spatiales 3D

Le mode Depth est fait pour les scènes où la distance compte. Architecture, intérieurs, paysages — tout ce où « cet objet se trouve devant cet autre objet » doit tenir. Dans mes essais, la profondeur était indulgente avec les changements de texture et de couleur, mais protectrice quant à la distance caméra et aux grandes formes. Quand j’ai demandé un angle de vue différent (champ de vision plus large) sans modifier la carte de profondeur, le modèle a résisté — ce que j’ai apprécié.

Note de terrain : la profondeur conservera volontiers une perspective maladroite si votre image source en a une. Si votre photo de référence est inclinée, votre résultat l’est aussi. J’ai appris à corriger la perspective en amont.

Mode Canny, détection de contours

Canny est le plus net des trois. Il extrait les contours et ignore la texture intérieure. Je l’ai utilisé lorsque j’avais un croquis au crayon ou un wireframe et que je voulais que le modèle reste dans les lignes — littéralement. Il a mieux maintenu les blocs typographiques, les logos et les silhouettes de produits que la profondeur. Mais il peut être fragile : si vous poussez la force trop haut, il peut aplatir le style ou produire des bandes de couleur autour des contours.

Note de terrain : les contours à faible contraste disparaissent parfois dans la carte canny. J’ai commencé à augmenter le contraste de mon croquis avant de l’envoyer. Petit changement, moins de surprises.

Mode Pose, points clés du corps humain

Le mode Pose cartographie les articulations et les positions des membres. Il s’agit moins de la ressemblance du visage que du rythme du corps — où vont les mains, la flexion du genou, l’inclinaison des épaules. Quand je préparais des poses de personnages pour un storyboard, le mode Pose m’a permis de garder l’action lisible tout en changeant les tenues, l’éclairage et l’ambiance.

Note de terrain : les mains se sont améliorées, mais seulement dans les limites de la pose. Si le squelette suggère cinq doigts courts regroupés, le modèle n’inventera pas une main élégante. Le mode Pose préserve l’intention : il ne corrige pas l’anatomie de lui-même.

Quand utiliser chaque mode

Depth : architecture, paysages

Utilisez-le quand la position de la caméra et l’échelle comptent.
Bon pour : bâtiments, intérieurs, prises de vue produit en environnement.
À éviter si vous ne vous souciez que de traits nets : la profondeur peut être trop floue pour des logos précis.

Ce que j’ai observé : la profondeur guidait subtilement le placement de la lumière. Si un mur était plus proche dans la carte de profondeur, le modèle respectait la façon dont la lumière tombait dessus. Je n’avais pas besoin de trop spécifier l’éclairage dans le prompt.

Canny : croquis, formes précises

Utilisez-le quand vous avez besoin de silhouettes nettes et d’un alignement fiable.
Bon pour : maquettes UI, emballages, art linéaire à colorier.
Attention à : le style trop contraint et les aplats si la force est trop élevée.

Ce que j’ai observé : canny a mieux préservé les boîtes de texte et l’espacement des icônes que tout autre mode. Je ne mettrais toujours pas de texte final en IA, mais pour l’idéation de mise en page, cela réduisait les frictions.

Pose : personnages, scènes d’action

Utilisez-le quand le langage corporel compte plus que le visage exact.
Bon pour : images clés, bandes dessinées, poses de mode.
Pas idéal pour : la ressemblance stricte d’une personne sans flux de travail de référence de visage.

Ce que j’ai observé : le mode Pose stabilisait les séquences en plusieurs plans. Je pouvais conserver les mêmes actions tout en explorant différents décors et palettes. Moins de jonglage mental.

Mise en œuvre via API

J’ai testé les points de terminaison ControlNet de Z-Image-Turbo fin janvier 2026 avec environ 30 requêtes par mode. J’ai gardé des entrées petites (768 px) pour rester rapide et cohérent.

Sélection du paramètre de mode

La plupart des API exposent quelque chose comme :

control_mode : “depth” | “canny” | “pose”
control_image : la carte ou l’image source que le serveur convertit en carte
prompt / negative_prompt : guidance de style et de contenu
seed : pour la reproductibilité

Si votre plateforme propose l’extraction automatique de carte, vous pouvez envoyer une image normale et définir control_mode : le serveur produira la carte depth/canny/pose.

Réglage de la force (commencer à 0.6)

La force de contrôle détermine la rigueur avec laquelle la structure est appliquée. Ma base de référence :

0.6 pour les premiers passages (équilibré)
0.4 quand je veux plus de liberté stylistique
0.8 quand j’ai besoin d’une précision quasi-verrouillée (logos, rendus critiques en perspective)

À 1.0, j’observais souvent de la rigidité. À 0.2, le contrôle était à peine perceptible. 0.6 s’est avéré le point d’équilibre idéal.

Exemple de code Python

Voici un exemple minimal. Vos noms de paramètres peuvent différer — consultez la documentation de votre fournisseur. Le schéma est cohérent à travers la plupart des wrappers REST que j’ai utilisés.

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # placeholder

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sunlit modern living room, warm wood, soft textiles, filmic lighting",

"negative_prompt": "distorted furniture, blown highlights",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" or "pose"

"control_strength": 0.6,

}


files = {
# Send a single reference: server extracts the chosen map

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

Si vous avez besoin de plus de détails sur les cartes de contrôle sous-jacentes, la documentation ControlNet dans AUTOMATIC1111 et MMPose d’OpenMMLab (pour la pose) expliquent bien les signaux.

Exemples de flux de travail

Du croquis à l’œuvre finie

Une petite frustration qui est à l’origine de tout cela : transformer un croquis au crayon approximatif en quelque chose de présentable prenait généralement une soirée. Avec canny à 0.6, j’ai envoyé un scan du croquis, ajouté un court prompt de style (encre et lavis, palette sourde), et laissé le modèle générer des variations. Les premiers passages étaient un peu trop propres, presque stériles. Baisser la force à 0.45 a ramené un peu de tremblement des lignes originales, ce qui semblait plus honnête. Temps gagné : peut-être 30 à 40 minutes, mais la plus grande victoire était mentale — bien moins de bricolage avec les masques.

Friction : les traits faibles disparaissaient dans la carte de contours jusqu’à ce que j’augmente le contraste du scan. Après ça, la cohérence s’est maintenue.

Visualisation architecturale

J’ai essayé le mode Depth sur une disposition simple de salon à partir d’une photo prise au téléphone (22 janvier 2026). L’objectif : conserver les positions du canapé et de la fenêtre, explorer les matériaux. Avec control_strength à 0.7, le modèle a respecté les positions des murs et le quadrillage de la fenêtre, tout en échangeant les tons du bois et les textures des tissus. Quand j’ai poussé à 0.85, les matériaux ont commencé à sembler trop ancrés — trop littéraux, moins atmosphériques. Je me suis stabilisé à 0.6 ou 0.65 pour la plupart des prises de vue intérieures.

Une petite surprise : ajouter un indice d’objectif dans le prompt (« 35mm, faible profondeur de champ ») a eu moins d’effet que prévu, car la carte de profondeur menait la danse. Quand je voulais une sensation de caméra différente, je re-photographiais la référence depuis un nouvel angle. Moins astucieux, mais plus fiable.

Art conceptuel de personnages

Le mode Pose m’a aidé à itérer sur une posture de course sur cinq images. Même personnage, ambiances différentes. J’ai utilisé un rapide bonhomme allumette d’un outil de pose comme image de contrôle, puis j’ai superposé des prompts de style — streetwear, contre-jour, crépuscule. Les mains se sont améliorées au fil des générations, mais nécessitaient encore des retouches. Je n’ai pas cherché à lutter contre ça. Pour un usage interne, des mains lisibles suffisaient ; pour une illustration finale, je compositerais les doigts à partir d’un passage plus propre ou les peindrai.

Ce qui a bien tenu : la courbe du corps et la direction du regard sont restées cohérentes. Cela donnait à l’ensemble l’aspect d’une séquence, et non de cinq images sans lien.

Pourquoi cela compte pour moi : ControlNet réduit le besoin de micro-gestion des prompts quand la structure est la partie difficile. Cela ne supprime pas le jugement. Cela déplace simplement l’attention vers les aspects qui méritent vraiment qu’on s’y concentre.

À qui cela pourrait convenir :

Vous gardez des photos de référence approximatives et vous voulez qu’elles guident réellement les résultats.
Vous dessinez librement et vous voulez des rendus propres sans perdre le geste.
Vous faites du storyboard et vous avez besoin que les poses restent lisibles pendant que le style évolue.

À qui cela ne conviendra probablement pas :

Vous voulez une ressemblance exacte sans étapes supplémentaires (vous aurez besoin d’un flux de travail face/ID).
Vous n’aimez pas le pré-traitement ou l’ajustement des images de référence.

Si vous êtes curieux, commencez petit : choisissez un mode, réglez la force à 0.6, et lancez la même entrée cinq fois en ne changeant que le prompt. Observez ce qui change et ce qui refuse de bouger. Ce refus — c’est votre structure qui parle.

Je garde encore une note sur mon bureau : « Corrige la référence, pas le prompt. » Ça me sauve de passer du temps à argumenter avec le modèle quand l’image dit simplement la vérité.