Guía de ControlNet para Z-Image-Turbo: Profundidad, Canny y Pose para Composiciones Precisas

Hola, amigos. ¿Cómo les va? Soy Dora. La primera vez que intenté guiar una imagen con una pose de figura de palitos, el resultado parecía un maniquí escapado de una tienda de segunda mano. No fue un desastre, solo… algo estaba mal. Quería que el modelo respetara la estructura sin aplanar el estilo. Así que en enero de 2026, pasé algunas tardes probando ControlNet dentro de Z-Image-Turbo en tareas pequeñas y reales: convertir un boceto en una servilleta en un render limpio, mantener intacta la geometría de un edificio y ajustar poses de personajes sin perder el ambiente. Esta guía es el rastro de notas que ojalá hubiera tenido el primer día: silenciosa, práctica y suficiente para ayudarte a decidir si esto encaja en tu flujo de trabajo.

¿Qué es ControlNet?

ControlNet es una forma de guiar un modelo de imagen con pistas estructurales, como bordes, profundidad o poses humanas, mientras se permite que el modelo pinte con su propio estilo. En lugar de presionar más los prompts o apilar tokens negativos, le proporcionas una imagen de “control” separada que captura el esqueleto de tu escena. El modelo entonces mezcla estructura y estilo, idealmente con menos forcejeo.

Separar Estructura de Estilo

En la práctica, lo pienso así:

El prompt y el checkpoint del modelo manejan el estilo (iluminación, textura, ambiente).
ControlNet maneja la estructura (composición, contornos, relaciones espaciales, pose).

Cuando esos dos se mantienen en sus carriles, obtengo menos resultados desconcertantes. Si intento forzar la estructura con trucos de prompts, usualmente lo pago con proporciones extrañas o deriva en iteraciones posteriores.

Cómo Funcionan los Modos de Control

Cada modo extrae un mapa diferente de tu entrada:

El modo de profundidad estima distancias 3D. Le da al modelo una noción de primer plano y fondo.
El modo Canny extrae bordes limpios. Es directo pero confiable.
El modo de pose encuentra puntos clave y esqueletos humanos. Ideal para acción o consistencia entre fotogramas.

Z-Image-Turbo (en mis pruebas de enero de 2026) expone estos como modos de ControlNet que puedes activar por solicitud. Los nombres pueden variar según la plataforma, pero la idea es la misma. Si quieres la versión formal, el artículo de ControlNet y la documentación de ControlNet de Stable Diffusion AUTOMATIC1111 son los mejores puntos de partida.

Tres Modos de Control Explicados

Modo de Profundidad, Relaciones Espaciales 3D

El modo de profundidad es para escenas donde la distancia importa. Arquitectura, interiores, paisajes, cualquier cosa donde “este objeto está delante de aquel objeto” necesite mantenerse. En mis ejecuciones, la profundidad fue permisiva con los cambios de textura y color, pero protectora con la distancia de la cámara y las formas grandes. Cuando pedí un aspecto de lente diferente (campo de visión más amplio) sin cambiar el mapa de profundidad, resistió, lo cual agradecí.

Nota de campo: la profundidad mantendrá alegremente una perspectiva incómoda si tu imagen fuente la tiene. Si tu foto de referencia está inclinada, tu resultado también lo estará. Aprendí a corregir la perspectiva primero.

Modo Canny, Detección de Bordes

Canny es el más ordenado de los tres. Extrae bordes e ignora la textura interior. Lo usé cuando tenía un boceto a lápiz o un wireframe y quería que el modelo se mantuviera dentro de las líneas, literalmente. Mantuvo bloques de tipografía, logotipos y contornos de productos mejor que la profundidad. Pero puede ser frágil: si empujas la intensidad demasiado alto, puede aplanar el estilo o producir bandas de color alrededor de los bordes.

Nota de campo: los bordes de bajo contraste a veces desaparecen en el mapa canny. Empecé a aumentar el contraste en mi boceto antes de enviarlo. Cambio pequeño, menos sorpresas.

Modo de Pose, Puntos Clave del Cuerpo Humano

El modo de pose mapea articulaciones y posiciones de extremidades. Se trata menos de parecido facial y más del ritmo corporal: dónde van las manos, la flexión de la rodilla, la inclinación de los hombros. Cuando preparé ritmos de personajes para un storyboard, la pose me permitió mantener la acción legible mientras cambiaba trajes, iluminación y ambiente.

Nota de campo: las manos mejoraron, pero solo dentro de los límites de la pose. Si el esqueleto sugiere cinco dedos cortos en un racimo, el modelo no inventará una mano elegante. La pose preserva la intención: no corrige la anatomía por sí sola.

Cuándo Usar Cada Modo

Profundidad: Arquitectura, Paisajes

Úsalo cuando la posición de la cámara y la escala importan.
Bueno para: edificios, interiores, tomas de producto en entorno.
Omítelo si solo te importan las líneas nítidas: la profundidad puede ser demasiado suave para logotipos precisos.

Lo que observé: la profundidad guió la colocación de la luz sutilmente. Si una pared estaba más cerca en el mapa de profundidad, el modelo respetó cómo caía la luz sobre ella. No tuve que sobreespecificar la iluminación en el prompt.

Canny: Bocetos, Formas Precisas

Úsalo cuando necesites siluetas limpias y alineación confiable.
Bueno para: maquetas de UI, packaging, arte lineal a color.
Cuidado con: estilo sobrerestringido y sombreado plano si la intensidad es demasiado alta.

Lo que observé: canny preservó las cajas de texto y el espaciado de iconos mejor que cualquier otro modo. Aun así, no fijaría tipo final en IA, pero para la ideación de diseño redujo la fricción.

Pose: Personajes, Escenas de Acción

Úsalo cuando el lenguaje corporal importa más que la cara exacta.
Bueno para: fotogramas clave, cómics, poses de moda.
No ideal para: parecido estricto de una persona sin un flujo de trabajo de referencia facial.

Lo que observé: la pose estabilizó secuencias de múltiples tomas. Podía mantener los mismos ritmos de acción mientras exploraba diferentes escenarios y paletas. Menos malabarismos mentales.

Implementación de API

Probé los endpoints de ControlNet de Z-Image-Turbo a finales de enero de 2026 con alrededor de 30 solicitudes por modo. Mantuve las entradas pequeñas (768 px) para ser rápido y consistente.

Selección del Parámetro de Modo

La mayoría de las APIs exponen algo como:

control_mode: “depth” | “canny” | “pose”
control_image: el mapa o imagen fuente que el servidor convierte en un mapa
prompt / negative_prompt: guía de estilo y contenido
seed: para reproducibilidad

Si tu plataforma ofrece extracción automática de mapas, puedes enviar una imagen normal y configurar control_mode: el servidor producirá el mapa de profundidad/canny/pose.

Configuración de Intensidad (Empieza en 0.6)

La intensidad de control decide qué tan estrictamente se aplica la estructura. Mi línea base:

0.6 para primeras pasadas (equilibrado)
0.4 cuando quiero más libertad de estilo
0.8 cuando necesito precisión casi total (logotipos, renders con perspectiva crítica)

En 1.0, a menudo vi rigidez. En 0.2, el control apenas estaba presente. 0.6 se sintió como el punto ideal.

Ejemplo de Código Python

A continuación hay un ejemplo mínimo. Los nombres de tus parámetros pueden diferir; consulta la documentación de tu proveedor. El patrón es consistente en la mayoría de los wrappers REST que he usado.

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # marcador de posición

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sala de estar moderna iluminada por el sol, madera cálida, textiles suaves, iluminación fílmica",

"negative_prompt": "muebles distorsionados, luces quemadas",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" o "pose"

"control_strength": 0.6,

}


files = {
# Envía una sola referencia: el servidor extrae el mapa elegido

"control_image": open("/ruta/a/referencia.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

Si necesitas más detalles sobre los mapas de control subyacentes, la documentación de ControlNet en AUTOMATIC1111 y MMPose de OpenMMLab (para poses) explican bien las señales.

Ejemplos de Flujo de Trabajo

De Boceto a Arte Terminado

Una pequeña queja que inició todo esto: convertir un boceto a lápiz suelto en algo presentable solía consumir una tarde. Con canny en 0.6, envié un escaneo del boceto, añadí un prompt de estilo corto (tinta y aguada, paleta apagada) y dejé que generara variaciones. Los primeros resultados eran un poco demasiado limpios, casi estériles. Bajar la intensidad a 0.45 recuperó algo del temblor de las líneas originales, lo cual se sentía más honesto. Tiempo ahorrado: tal vez 30–40 minutos, pero la mayor ganancia fue mental: mucho menos jugueteo con máscaras.

Fricción: las líneas tenues desaparecían en el mapa de bordes hasta que aumenté el contraste en el escaneo. Después de eso, la consistencia se mantuvo.

Visualización Arquitectónica

Probé el modo de profundidad en una distribución simple de sala de estar desde una foto de teléfono (22 de enero de 2026). El objetivo: mantener las posiciones del sofá y la ventana, explorar materiales. Con control_strength en 0.7, el modelo respetó las posiciones de las paredes y la cuadrícula de la ventana, mientras intercambiaba tonos de madera y texturas de tela. Cuando subí a 0.85, los materiales empezaron a parecer demasiado anclados, demasiado literales, menos atmosféricos. Me establecí en 0.6 o 0.65 para la mayoría de las tomas de interiores.

Una pequeña sorpresa: agregar una pista de lente en el prompt (“35mm, poca profundidad de campo”) hizo menos de lo que esperaba porque el mapa de profundidad era quien mandaba. Cuando quería una sensación de cámara diferente, re-fotografié la referencia desde un nuevo ángulo. Menos ingenioso, más confiable.

Arte Conceptual de Personajes

El modo de pose me ayudó a iterar sobre una postura de carrera en cinco fotogramas. El mismo personaje, diferentes ambientes. Usé una figura de palitos rápida de una herramienta de poses como imagen de control, luego superposé prompts de estilo: ropa urbana, contraluz, atardecer. Las manos mejoraron en cada ejecución, pero aún necesitaban retoques. No lo forcé. Para trabajo interno, manos legibles eran suficiente: para arte de publicación, compondría los dedos de una pasada más limpia o los pintaría.

Lo que se mantuvo: el arco del cuerpo y la dirección de la mirada fueron consistentes. Eso hizo que el conjunto se sintiera como una secuencia, no cinco imágenes sin relación.

Por qué esto me importa: ControlNet reduce la necesidad de microgestión de prompts cuando la estructura es la parte difícil. No elimina el juicio. Solo mueve la atención a las partes que vale la pena cuidar.

Quién podría gustarle esto:

Tienes fotos de referencia aproximadas y quieres que realmente guíen los resultados.
Dibujas suelto y quieres renders limpios sin perder el gesto.
Haces storyboards y necesitas que las poses se mantengan legibles mientras el estilo cambia.

Quién probablemente no:

Quieres parecido exacto sin pasos adicionales (necesitarás un flujo de trabajo de cara/ID).
No te gusta el preprocesamiento o ajustar imágenes de referencia.

Si tienes curiosidad, empieza pequeño: elige un modo, establece la intensidad en 0.6 y ejecuta la misma entrada cinco veces cambiando solo el prompt. Observa qué cambia y qué se niega a moverse. Esa negativa, eso es tu estructura hablando.

Todavía tengo una nota en mi escritorio: “Arregla la referencia, no el prompt.” Me salva de discutir con el modelo cuando la imagen simplemente está diciendo la verdad.