Z-Image-Turbo ControlNet Leitfaden: Tiefe, Canny und Pose für präzise Layouts

Hey, meine Freunde. Wie läuft’s? Ich bin Dora. Das erste Mal, als ich versuchte, ein Bild mit einer Strichmännchenpose zu steuern, sah das Ergebnis aus wie ein Schaufensterpuppe, die aus einem Second-Hand-Laden geflohen ist. Nicht katastrophal, aber… irgendwie schief. Ich wollte, dass das Modell die Struktur respektiert, ohne den Stil zu plattmachen. Also verbrachte ich im Januar 2026 ein paar Nachmittage damit, ControlNet innerhalb von Z-Image-Turbo an kleinen, realen Aufgaben zu testen: eine Serviettenskizze in ein sauberes Rendering verwandeln, die Geometrie eines Gebäudes intakt halten und Charakterposen anpassen, ohne die Stimmung zu verlieren. Dieser Leitfaden ist die Sammlung von Notizen, die ich mir am ersten Tag gewünscht hätte – ruhig, praktisch und ausreichend, um dir zu helfen zu entscheiden, ob das in deinen Workflow passt.

Was ist ControlNet?

ControlNet ist eine Methode, ein Bildmodell mit strukturellen Hinweisen zu steuern – wie Kanten, Tiefe oder menschliche Posen –, während das Modell weiterhin in seinem eigenen Stil zeichnen kann. Anstatt Prompts stärker zu drücken oder negative Tokens zu stapeln, füttert man es mit einem separaten „Steuerungs”-Bild, das das Grundgerüst der Szene erfasst. Das Modell verbindet dann Struktur und Stil – im Idealfall mit weniger Kampf.

Struktur von Stil trennen

In der Praxis denke ich es so:

Prompt und Modell-Checkpoint übernehmen den Stil (Beleuchtung, Textur, Atmosphäre).
ControlNet übernimmt die Struktur (Komposition, Konturen, räumliche Beziehungen, Pose).

Wenn diese beiden in ihrer Spur bleiben, erhalte ich weniger unheimliche Ergebnisse. Wenn ich versuche, Struktur mit Prompt-Tricks zu erzwingen, bezahle ich das meist mit seltsamen Proportionen oder Drift in späteren Iterationen.

Wie Steuermodi funktionieren

Jeder Modus extrahiert eine andere Karte aus deiner Eingabe:

Tiefenmodus schätzt 3D-Abstände. Er gibt dem Modell ein Gefühl für Vorder- und Hintergrund.
Canny-Modus extrahiert saubere Kanten. Direkt, aber zuverlässig.
Posenmodus findet menschliche Schlüsselpunkte und Skelette. Hervorragend für Aktionen oder Konsistenz über mehrere Frames hinweg.

Z-Image-Turbo (in meinen Tests vom Januar 2026) bietet diese als ControlNet-Modi an, die man pro Anfrage umschalten kann. Die Namen können je nach Plattform variieren, aber die Idee ist dieselbe. Wenn du die formale Version möchtest, sind das ControlNet-Paper und die Stable Diffusion AUTOMATIC1111 ControlNet-Docs die besten Ausgangspunkte.

Drei Steuermodi erklärt

Tiefenmodus – räumliche 3D-Beziehungen

Der Tiefenmodus eignet sich für Szenen, in denen Entfernung eine Rolle spielt. Architektur, Innenräume, Landschaften – alles, wo „dieses Objekt befindet sich vor jenem Objekt” erhalten bleiben muss. In meinen Tests war die Tiefe nachsichtig bei Textur- und Farbwechseln, schützte aber Kameraabstand und große Formen. Als ich eine andere Linsenanmutung (breiteres Sichtfeld) anforderte, ohne die Tiefenkarte zu ändern, leistete das Modell Widerstand – was ich zu schätzen wusste.

Feldnotiz: Die Tiefe behält eine ungeschickte Perspektive bei, wenn dein Quellbild eine hat. Wenn das Referenzfoto schief ist, ist das Ergebnis schief. Ich habe gelernt, die Perspektive zuerst zu korrigieren.

Canny-Modus – Kantenerkennung

Canny ist der sauberste der drei Modi. Er extrahiert Kanten und ignoriert innere Textur. Ich verwendete ihn, wenn ich eine Bleistiftskizze oder ein Drahtmodell hatte und wollte, dass das Modell buchstäblich innerhalb der Linien bleibt. Er hielt Typografieblöcke, Logos und Produktumrisse besser als Tiefe. Aber er kann spröde sein: Wenn man die Stärke zu hoch einstellt, kann er den Stil abflachen oder Farbbänderung an Kanten erzeugen.

Feldnotiz: Kontrastarme Kanten verschwinden manchmal in der Canny-Karte. Ich begann damit, den Kontrast meiner Skizze vor dem Hochladen zu erhöhen. Kleine Änderung, weniger Überraschungen.

Posenmodus – menschliche Körper-Schlüsselpunkte

Der Posenmodus kartiert Gelenke und Gliedmaßenpositionen. Es geht weniger um Gesichtsähnlichkeit und mehr um Körperrhythmus – wohin die Hände gehen, die Beugung im Knie, die Neigung der Schultern. Als ich Charaktermomente für ein Storyboard entwarf, ließ mich Pose die Aktion lesbar halten, während ich Outfits, Beleuchtung und Stimmung veränderte.

Feldnotiz: Hände verbesserten sich, aber nur innerhalb der Grenzen der Pose. Wenn das Skelett fünf kurze Finger in einem Cluster andeutet, erfindet das Modell keine elegante Hand. Pose bewahrt die Absicht – sie behebt die Anatomie nicht von allein.

Wann man welchen Modus verwendet

Tiefe: Architektur, Landschaften

Verwende es, wenn Kameraposition und Maßstab wichtig sind.
Geeignet für: Gebäude, Innenräume, Produkt-in-Umgebung-Aufnahmen.
Überspringen, wenn es nur um scharfe Linienarbeit geht: Tiefe kann für präzise Logos zu weich sein.

Was ich sah: Tiefe steuerte die Lichtplatzierung subtil. Wenn eine Wand in der Tiefenkarte näher war, respektierte das Modell, wie das Licht auf sie fiel. Ich musste die Beleuchtung nicht im Prompt überspezifizieren.

Canny: Skizzen, präzise Formen

Verwende es, wenn du saubere Silhouetten und zuverlässige Ausrichtung benötigst.
Geeignet für: UI-Mockups, Verpackungen, Linienzeichnungen zum Kolorieren.
Achtung bei: übermäßig eingeschränktem Stil und flacher Schattierung bei zu hoher Stärke.

Was ich sah: Canny bewahrte Textboxen und Icon-Abstände besser als jeder andere Modus. Ich würde immer noch keinen endgültigen Text in KI setzen, aber für Layout-Ideenfindung reduzierte es den Aufwand.

Pose: Charaktere, Aktionsszenen

Verwende es, wenn Körpersprache mehr zählt als das genaue Gesicht.
Geeignet für: Keyframes, Comics, Modeposen.
Nicht ideal für: strikte Ähnlichkeit einer Person ohne einen Gesichts-/ID-Workflow.

Was ich sah: Pose stabilisierte Mehrfach-Aufnahme-Sequenzen. Ich konnte dieselben Aktionsmomente beibehalten und dabei verschiedene Umgebungen und Farbpaletten erkunden. Weniger mentales Jonglieren.

API-Implementierung

Ich testete die Z-Image-Turbo ControlNet-Endpunkte Ende Januar 2026 mit etwa 30 Anfragen pro Modus. Ich hielt die Eingaben klein (768 px), um schnell und konsistent zu bleiben.

Modusparameter-Auswahl

Die meisten APIs bieten so etwas wie:

control_mode: “depth” | “canny” | “pose”
control_image: die Karte oder das Quellbild, das der Server in eine Karte umwandelt
prompt / negative_prompt: Stil- und Inhaltsanleitung
seed: für Wiederholbarkeit

Wenn deine Plattform automatische Kartenextraktion anbietet, kannst du ein normales Bild senden und control_mode setzen: Der Server erstellt dann die Tiefen-/Canny-/Posenkarte.

Stärkeeinstellung (Start bei 0,6)

Die Steuerungsstärke bestimmt, wie streng die Struktur durchgesetzt wird. Meine Ausgangswerte:

0,6 für erste Durchläufe (ausgewogen)
0,4 wenn ich mehr Stilfreiheit möchte
0,8 wenn ich nahezu exakte Präzision benötige (Logos, perspektivkritische Renderings)

Bei 1,0 sah ich oft Steifheit. Bei 0,2 war die Steuerung kaum vorhanden. 0,6 fühlte sich wie der Sweet Spot an.

Python-Codebeispiel

Unten ist ein minimales Beispiel. Deine Parameternamen können abweichen – überprüfe die Dokumentation deines Anbieters. Das Muster ist konsistent über die meisten REST-Wrapper, die ich verwendet habe.

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # Platzhalter

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sunlit modern living room, warm wood, soft textiles, filmic lighting",

"negative_prompt": "distorted furniture, blown highlights",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" oder "pose"

"control_strength": 0.6,

}


files = {
# Einzelne Referenz senden: Server extrahiert die gewählte Karte

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

Wenn du mehr Details zu den zugrundeliegenden Steuerkarten benötigst, erklären die ControlNet-Docs in AUTOMATIC1111 und OpenMMLab’s MMPose (für Pose) die Signale gut.

Workflow-Beispiele

Skizze zu fertigem Kunstwerk

Kleiner Unmut, der das alles ausgelöst hat: Eine lockere Bleistiftskizze in etwas Vorzeigbares zu verwandeln, fraß meist einen ganzen Abend. Mit Canny bei 0,6 schickte ich einen Scan der Skizze, fügte einen kurzen Stil-Prompt hinzu (Tusche und Aquarell, gedämpfte Palette) und ließ es Variationen entwerfen. Die ersten Durchläufe waren etwas zu sauber, fast steril. Die Stärke auf 0,45 zu senken brachte etwas Wackeln von den Originallinien zurück, was sich ehrlicher anfühlte. Zeitersparnis: vielleicht 30–40 Minuten, aber der größere Gewinn war mental – viel weniger Gefummel mit Masken.

Reibungspunkt: Schwache Linien verschwanden in der Kantenkarte, bis ich den Kontrast im Scan erhöhte. Danach hielt die Konsistenz.

Architekturvisualisierung

Ich testete den Tiefenmodus an einem einfachen Wohnzimmerlayout von einem Handyfoto (22. Januar 2026). Das Ziel: Sofa- und Fensterpositionen beibehalten, Materialien erkunden. Mit control_strength bei 0,7 respektierte das Modell Wandpositionen und das Fenstergitter, während es Holztöne und Stofftexturen tauschte. Als ich auf 0,85 drückte, begannen Materialien zu übermäßig verankert auszusehen – zu wörtlich, weniger atmosphärisch. Ich landete bei 0,6 oder 0,65 für die meisten Innenaufnahmen.

Eine kleine Überraschung: Das Hinzufügen eines Linsenhinweises im Prompt („35mm, geringe Tiefenschärfe”) hatte weniger Wirkung als erwartet, weil die Tiefenkarte das Sagen hatte. Wenn ich ein anderes Kameragefühl wollte, machte ich die Referenzaufnahme aus einem neuen Winkel. Weniger clever, aber zuverlässiger.

Charakter-Konzeptkunst

Der Posenmodus half mir, eine Laufhaltung über fünf Frames hinweg zu iterieren. Gleicher Charakter, unterschiedliche Stimmungen. Ich verwendete eine schnelle Strichmännchenfigur aus einem Pose-Tool als Steuerbild und schichtete dann Stil-Prompts – Streetwear, Gegenlicht, Dämmerung. Hände verbesserten sich über die Durchläufe hinweg, benötigten aber noch Nachbesserungen. Ich kämpfte nicht dagegen an. Für interne Arbeit waren lesbare Hände ausreichend; für Veröffentlichungskunst würde ich Finger aus einem saubereren Durchlauf zusammensetzen oder sie malen.

Was standhielt: Der Körperbogen und die Blickrichtung blieben konsistent. Das ließ das Set wie eine Sequenz wirken, nicht wie fünf unzusammenhängende Bilder.

Warum das für mich wichtig ist: ControlNet reduziert den Bedarf an Prompt-Mikroverwaltung, wenn Struktur der schwierige Teil ist. Es beseitigt kein Urteilsvermögen. Es verschiebt die Aufmerksamkeit nur auf die Teile, die es wert sind.

Wer das mögen könnte:

Du hast grobe Referenzfotos herumliegen und möchtest, dass sie tatsächlich Ergebnisse steuern.
Du zeichnest locker und willst saubere Renderings, ohne die Geste zu verlieren.
Du erstellst Storyboards und brauchst Posen, die lesbar bleiben, während sich der Stil verändert.

Wer es wahrscheinlich nicht mag:

Du willst exakte Ähnlichkeit ohne zusätzliche Schritte (du brauchst dann einen Gesichts-/ID-Workflow).
Du magst keine Vorverarbeitung oder das Anpassen von Referenzbildern.

Wenn du neugierig bist, fang klein an: Wähle einen Modus, stelle die Stärke auf 0,6 und führe dieselbe Eingabe fünfmal aus, während du nur den Prompt änderst. Beobachte, was sich ändert und was sich weigert zu bewegen. Diese Weigerung – das ist deine Struktur, die spricht.

Auf meinem Schreibtisch liegt noch ein Zettel: „Korrigiere die Referenz, nicht den Prompt.” Das bewahrt mich davor, mit dem Modell zu streiten, wenn das Bild einfach die Wahrheit sagt.