Guia ControlNet do Z-Image-Turbo: Depth, Canny e Pose para Layouts Precisos

Olá, meus amigos. Como estão? Sou a Dora. Na primeira vez que tentei guiar uma imagem com uma pose de boneco de palito, o resultado pareceu um manequim que escapou de um brechó. Não foi um desastre, apenas… estranho. Eu queria que o modelo respeitasse a estrutura sem achatar o estilo. Então, em janeiro de 2026, passei algumas tardes testando o ControlNet dentro do Z-Image-Turbo em tarefas pequenas e reais: transformar um esboço de guardanapo em um render limpo, manter a geometria de um edifício intacta e ajustar poses de personagens sem perder o clima. Este guia é o rastro de notas que eu gostaria de ter tido no primeiro dia — tranquilo, prático e suficiente para ajudá-lo a decidir se isso se encaixa no seu fluxo de trabalho.

O que é ControlNet?

ControlNet é uma forma de guiar um modelo de imagem com dicas estruturais — como bordas, profundidade ou pose humana — enquanto ainda permite que o modelo pinte com seu próprio estilo. Em vez de forçar os prompts ou empilhar tokens negativos, você fornece uma imagem de “controle” separada que captura o esqueleto da sua cena. O modelo então mescla estrutura e estilo, idealmente com menos esforço.

Separando Estrutura de Estilo

Na prática, penso assim:

Prompt e checkpoint do modelo cuidam do estilo (iluminação, textura, atmosfera).
ControlNet cuida da estrutura (composição, contornos, relações espaciais, pose).

Quando esses dois ficam em suas faixas, obtenho menos resultados estranhos. Se tento forçar estrutura com hacks de prompt, geralmente pago com proporções esquisitas ou deriva em iterações posteriores.

Como os Modos de Controle Funcionam

Cada modo extrai um mapa diferente da sua entrada:

O modo Depth estima distâncias 3D. Ele dá ao modelo uma noção de primeiro plano e fundo.
O modo Canny extrai bordas limpas. É direto, mas confiável.
O modo Pose encontra keypoints e esqueletos humanos. Ótimo para ação ou consistência entre frames.

O Z-Image-Turbo (nos meus testes de janeiro de 2026) expõe esses modos como modos ControlNet que você pode alternar por requisição. Os nomes podem variar por plataforma, mas a ideia é a mesma. Se você quiser a versão formal, o paper do ControlNet e a documentação do ControlNet do Stable Diffusion AUTOMATIC1111 são os melhores pontos de partida.

Três Modos de Controle Explicados

Modo Depth, Relações Espaciais 3D

O modo Depth é para cenas onde a distância importa. Arquitetura, interiores, paisagens — qualquer coisa onde “este objeto está na frente daquele objeto” precisa se manter. Nos meus testes, o depth foi tolerante com mudanças de textura e cor, mas protetivo quanto à distância da câmera e às formas grandes. Quando pedi uma aparência de lente diferente (campo de visão mais amplo) sem alterar o mapa de profundidade, ele resistiu — o que apreciei.

Nota de campo: o depth vai alegremente manter uma perspectiva estranha se sua imagem de origem a tiver. Se sua foto de referência estiver inclinada, seu resultado estará inclinado. Aprendi a corrigir a perspectiva primeiro.

Modo Canny, Detecção de Bordas

Canny é o mais preciso dos três. Ele extrai bordas e ignora a textura interior. Usei-o quando tinha um esboço a lápis ou um wireframe e queria que o modelo ficasse dentro das linhas — literalmente. Ele manteve blocos de tipografia, logotipos e contornos de produtos melhor do que o depth. Mas pode ser frágil: se você aumentar muito a intensidade, pode achatar o estilo ou produzir faixas de cor ao redor das bordas.

Nota de campo: bordas de baixo contraste às vezes desaparecem no mapa canny. Comecei a aumentar o contraste no meu esboço antes de enviá-lo. Pequena mudança, menos surpresas.

Modo Pose, Keypoints do Corpo Humano

O modo Pose mapeia articulações e posições dos membros. É menos sobre semelhança facial e mais sobre o ritmo do corpo — onde as mãos vão, a dobra do joelho, a inclinação dos ombros. Quando esboçava batidas de personagens para um storyboard, o pose me permitiu manter a ação legível enquanto mudava roupas, iluminação e clima.

Nota de campo: as mãos melhoraram, mas apenas dentro dos limites da pose. Se o esqueleto sugere cinco dedos curtos agrupados, o modelo não vai inventar uma mão graciosa. O Pose preserva a intenção — não corrige a anatomia por conta própria.

Quando Usar Cada Modo

Depth: Arquitetura, Paisagens

Use quando a posição da câmera e a escala importam.
Bom para: edifícios, interiores, shots de produto no ambiente.
Pule se você só se preocupa com linhas nítidas: o depth pode ser muito suave para logotipos precisos.

O que observei: o depth guiou sutilmente a colocação da luz. Se uma parede estava mais próxima no mapa de profundidade, o modelo respeitava como a luz incidia sobre ela. Não precisei especificar demais a iluminação no prompt.

Canny: Esboços, Formas Precisas

Use quando precisar de silhuetas limpas e alinhamento confiável.
Bom para: mockups de UI, embalagens, line-art para colorir.
Cuidado com: estilo super-constrangido e sombreamento plano se a intensidade estiver muito alta.

O que observei: o canny preservou caixas de texto e espaçamento de ícones melhor do que qualquer outro modo. Ainda não definiria o tipo final em IA, mas para ideação de layout reduziu o atrito.

Pose: Personagens, Cenas de Ação

Use quando a linguagem corporal importa mais do que o rosto exato.
Bom para: keyframes, quadrinhos, poses de moda.
Não ideal para: semelhança estrita de uma pessoa sem um fluxo de trabalho de referência facial.

O que observei: o pose estabilizou sequências com múltiplos shots. Eu podia manter as mesmas batidas de ação enquanto explorava diferentes cenários e paletas. Menos malabarismo mental.

Implementação via API

Testei os endpoints ControlNet do Z-Image-Turbo no final de janeiro de 2026 com cerca de 30 requisições por modo. Mantive as entradas pequenas (768 px) para ser rápido e consistente.

Seleção do Parâmetro de Modo

A maioria das APIs expõe algo como:

control_mode: “depth” | “canny” | “pose”
control_image: o mapa ou imagem de origem que o servidor converte em mapa
prompt / negative_prompt: orientação de estilo e conteúdo
seed: para repetibilidade

Se sua plataforma oferece extração automática de mapa, você pode enviar uma imagem normal e definir control_mode: o servidor produzirá o mapa de depth/canny/pose.

Configuração de Intensidade (Comece em 0.6)

A intensidade de controle decide com que rigor a estrutura é aplicada. Minha base:

0.6 para primeiras passagens (equilibrado)
0.4 quando quero mais liberdade de estilo
0.8 quando preciso de precisão quase total (logotipos, renders críticos de perspectiva)

Em 1.0, frequentemente via rigidez. Em 0.2, o controle mal estava presente. 0.6 pareceu o ponto ideal.

Exemplo de Código Python

Abaixo está um exemplo mínimo. Os nomes dos seus parâmetros podem ser diferentes — verifique a documentação do seu provedor. O padrão é consistente na maioria dos wrappers REST que usei.

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # placeholder

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sunlit modern living room, warm wood, soft textiles, filmic lighting",

"negative_prompt": "distorted furniture, blown highlights",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" or "pose"

"control_strength": 0.6,

}


files = {
# Send a single reference: server extracts the chosen map

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

Se você precisar de mais detalhes sobre os mapas de controle subjacentes, a documentação do ControlNet no AUTOMATIC1111 e o MMPose da OpenMMLab (para pose) explicam bem os sinais.

Exemplos de Fluxo de Trabalho

Esboço para Arte Final

Uma pequena frustração que deu início a tudo isso: transformar um esboço a lápis solto em algo apresentável geralmente consumia uma tarde. Com canny em 0.6, enviei uma digitalização do esboço, adicionei um prompt de estilo curto (tinta e aguada, paleta suave) e deixei-o gerar variações. As primeiras passagens eram um pouco limpas demais, quase estéreis. Baixar a intensidade para 0.45 trouxe de volta um pouco da oscilação das linhas originais, o que pareceu mais honesto. Tempo economizado: talvez 30–40 minutos, mas a maior vitória foi mental — muito menos mexer com máscaras.

Atrito: linhas fracas desapareceram no mapa de bordas até eu aumentar o contraste na digitalização. Depois disso, a consistência se manteve.

Visualização Arquitetônica

Testei o modo depth em um layout simples de sala de estar a partir de uma foto de celular (22 de janeiro de 2026). O objetivo: manter as posições do sofá e da janela, explorar materiais. Com control_strength em 0.7, o modelo respeitou as posições das paredes e a grade da janela, enquanto trocava tons de madeira e texturas de tecido. Quando empurrei para 0.85, os materiais começaram a parecer super-ancorados — muito literais, menos atmosféricos. Me fixei em 0.6 ou 0.65 para a maioria dos shots de interiores.

Uma pequena surpresa: adicionar uma dica de lente no prompt (“35mm, profundidade de campo rasa”) fez menos do que eu esperava porque o mapa de profundidade estava no comando. Quando queria uma sensação de câmera diferente, refilmei a referência de um novo ângulo. Menos criativo, mais confiável.

Arte Conceitual de Personagens

O modo Pose me ajudou a iterar sobre uma postura de corrida em cinco frames. Mesmo personagem, climas diferentes. Usei um boneco de palito rápido de uma ferramenta de pose como imagem de controle, depois sobrepus prompts de estilo — streetwear, contraluz, entardecer. As mãos melhoraram nas execuções, mas ainda precisavam de retoques. Não lutei contra isso. Para trabalho interno, mãos legíveis eram suficientes — para arte de lançamento, eu comporia os dedos de uma passagem mais limpa ou os pintaria.

O que se manteve: o arco do corpo e a direção do olhar permaneceram consistentes. Isso fez o conjunto parecer uma sequência, não cinco imagens sem relação.

Por que isso importa para mim: o ControlNet reduz a necessidade de micro-gerenciamento de prompts quando a estrutura é a parte difícil. Ele não elimina o julgamento. Apenas move a atenção para as partes que valem a pena cuidar.

Quem pode gostar disso:

Você mantém fotos de referência brutas por perto e quer que elas realmente guiem os resultados.
Você desenha de forma solta e quer renders limpos sem perder o gesto.
Você faz storyboards e precisa que as poses permaneçam legíveis enquanto o estilo muda.

Quem provavelmente não vai gostar:

Você quer semelhança exata sem etapas extras (você precisará de um fluxo de trabalho de rosto/ID).
Você não gosta de pré-processamento ou de ajustar imagens de referência.

Se você está curioso, comece pequeno: escolha um modo, defina a intensidade para 0.6 e execute a mesma entrada cinco vezes enquanto muda apenas o prompt. Observe o que muda e o que se recusa a mover. Essa recusa — essa é a sua estrutura falando.

Ainda mantenho uma nota na minha mesa: “Corrija a referência, não o prompt.” Isso me salva de discutir com o modelo quando a imagem simplesmente está dizendo a verdade.