Руководство по Z-Image-Turbo ControlNet: Depth, Canny, Pose для точных макетов

Привет, друзья. Как дела? Я Дора. Когда я впервые попыталась направить изображение с помощью позы в виде схематичного рисунка, результат выглядел так, будто манекен сбежал из секонд-хенда. Не катастрофа, но… что-то не то. Мне хотелось, чтобы модель соблюдала структуру, не убивая стиль. Поэтому в январе 2026 года я провела несколько вечеров, тестируя ControlNet в Z-Image-Turbo на небольших реальных задачах: превращение набросков на салфетке в чистый рендер, сохранение геометрии здания и коррекция поз персонажей без потери настроения. Это руководство — те самые заметки, которых мне не хватало в первый день: тихие, практичные и достаточные, чтобы решить, подходит ли это вам.

Что такое ControlNet?

ControlNet — это способ управлять моделью изображений с помощью структурных подсказок: контуров, глубины или позы человека, позволяя при этом модели самой прорисовывать стиль. Вместо того чтобы усиливать промпты или добавлять негативные токены, вы подаёте отдельное «управляющее» изображение, которое передаёт «скелет» вашей сцены. Модель затем объединяет структуру и стиль — в идеале с меньшей борьбой.

Разделение структуры и стиля

На практике я думаю об этом так:

Промпт и чекпоинт модели отвечают за стиль (освещение, текстура, атмосфера).
ControlNet отвечает за структуру (композиция, контуры, пространственные отношения, поза).

Когда каждый занимается своим делом, результаты получаются менее странными. Если я пытаюсь навязать структуру хаками в промпте, это обычно оборачивается неправильными пропорциями или смещением в последующих итерациях.

Как работают режимы управления

Каждый режим извлекает из входного изображения свою карту:

Режим Depth оценивает расстояния в 3D. Он даёт модели ощущение переднего и заднего планов.
Режим Canny извлекает чёткие края. Прямолинейный, но надёжный.
Режим Pose находит ключевые точки и скелет человека. Отлично подходит для динамики и сохранения последовательности.

Z-Image-Turbo (в моих тестах января 2026 года) предоставляет эти режимы ControlNet в виде параметров, которые можно переключать для каждого запроса. Названия могут отличаться в зависимости от платформы, но суть одна. Если хотите официальную версию, лучшие отправные точки — статья ControlNet и документация ControlNet для Stable Diffusion AUTOMATIC1111.

Три режима управления

Режим Depth: пространственные отношения в 3D

Режим Depth предназначен для сцен, где важны расстояния. Архитектура, интерьеры, пейзажи — всё, где нужно сохранить принцип «этот объект находится перед тем». В моих тестах Depth был снисходителен к изменениям текстуры и цвета, но строго охранял расстояния до камеры и крупные формы. Когда я попросила его изменить угол обзора (более широкое поле зрения) без изменения карты глубины, он сопротивлялся — что мне понравилось.

Полевая заметка: Depth с удовольствием сохранит неловкую перспективу, если она есть на исходном изображении. Если эталонная фотография наклонена, результат тоже будет наклонён. Я научилась сначала исправлять перспективу.

Режим Canny: определение краёв

Canny — самый аккуратный из трёх режимов. Он извлекает края и игнорирует внутренние текстуры. Я использовала его, когда у меня был карандашный набросок или каркас и мне нужно было, чтобы модель буквально оставалась «внутри линий». Он лучше сохранял блоки типографики, логотипы и контуры продуктов, чем Depth. Но он может быть хрупким: если поставить слишком высокую интенсивность, стиль может уплощиться или появится цветовая полосатость вдоль краёв.

Полевая заметка: края с низким контрастом иногда исчезают на карте Canny. Я стала повышать контрастность наброска перед отправкой. Небольшое изменение — меньше сюрпризов.

Режим Pose: ключевые точки тела

Режим Pose фиксирует суставы и положения конечностей. Он меньше про сходство лиц и больше про ритм тела: куда идут руки, как согнуто колено, как наклонены плечи. Когда я набрасывала образы персонажей для раскадровки, Pose позволил мне сохранить читаемость действия при смене нарядов, освещения и настроения.

Полевая заметка: руки улучшились, но только в рамках ограничений позы. Если скелет предполагает пять коротких пальцев в кучке, модель не придумает изящную кисть. Pose сохраняет намерение — он не исправляет анатомию сам по себе.

Когда использовать каждый режим

Depth: архитектура, пейзажи

Используйте, когда важны положение камеры и масштаб.
Хорошо подходит для: зданий, интерьеров, съёмки продукта в среде.
Пропустите, если вам нужна чёткая линейность: Depth может быть слишком мягким для точных логотипов.

Что я заметила: Depth ненавязчиво направлял размещение света. Если стена была ближе на карте глубины, модель учитывала, как свет падает на неё. Мне не приходилось детально прописывать освещение в промпте.

Canny: наброски, точные формы

Используйте, когда нужны чёткие силуэты и надёжное выравнивание.
Хорошо подходит для: макетов интерфейсов, упаковки, раскраски линейного рисунка.
Остерегайтесь: чрезмерно ограниченного стиля и плоского затенения при слишком высокой интенсивности.

Что я заметила: Canny сохранял текстовые блоки и отступы иконок лучше любого другого режима. Я всё равно не стала бы задавать финальный текст в ИИ, но для создания макетов это снизило трение.

Pose: персонажи, экшн-сцены

Используйте, когда язык тела важнее точного лица.
Хорошо подходит для: ключевых кадров, комиксов, fashion-поз.
Не идеален для: точного портретного сходства без отдельного рабочего процесса с референсом лица.

Что я заметила: Pose стабилизировал многокадровые последовательности. Я могла сохранять одни и те же ключевые действия, исследуя разные окружения и палитры. Меньше умственной эквилибристики.

Реализация через API

Я тестировала эндпоинты ControlNet Z-Image-Turbo в конце января 2026 года, отправив около 30 запросов для каждого режима. Я держала входные изображения небольшими (768 пикселей) для скорости и последовательности.

Выбор параметра режима

Большинство API предоставляют что-то вроде:

control_mode: “depth” | “canny” | “pose”
control_image: карта или исходное изображение, из которого сервер создаёт карту
prompt / negative_prompt: направление стиля и содержания
seed: для воспроизводимости

Если ваша платформа предлагает автоматическое извлечение карты, вы можете отправить обычное изображение и задать control_mode — сервер сам создаст карту глубины/краёв/позы.

Настройка интенсивности (начните с 0.6)

Интенсивность управления определяет, насколько строго соблюдается структура. Мои базовые значения:

0.6 для первых проходов (баланс)
0.4 когда нужна большая свобода стиля
0.8 когда нужна почти точная фиксация (логотипы, рендеры с критичной перспективой)

При значении 1.0 я часто видела скованность. При 0.2 управление практически отсутствовало. 0.6 ощущалось как оптимум.

Пример кода на Python

Ниже приведён минимальный пример. Названия ваших параметров могут отличаться — проверьте документацию вашего провайдера. Паттерн единообразен в большинстве REST-обёрток, которые я использовала.

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # placeholder

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sunlit modern living room, warm wood, soft textiles, filmic lighting",

"negative_prompt": "distorted furniture, blown highlights",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" or "pose"

"control_strength": 0.6,

}


files = {
# Send a single reference: server extracts the chosen map

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

Если вам нужны подробности о базовых картах управления, документация ControlNet в AUTOMATIC1111 и MMPose от OpenMMLab (для позы) хорошо объясняют используемые сигналы.

Примеры рабочих процессов

От наброска к готовой работе

Небольшое раздражение, с которого всё и началось: превращение грубого карандашного наброска во что-то презентабельное обычно занимало вечер. С Canny при интенсивности 0.6 я отправила скан наброска, добавила короткий промпт стиля (тушь и акварель, приглушённая палитра) и дала ему сделать варианты. Первые проходы были немного слишком чистыми, почти стерильными. Снижение интенсивности до 0.45 вернуло немного дрожания оригинальных линий, что ощущалось честнее. Сэкономленное время: примерно 30–40 минут, но главный выигрыш был ментальным — значительно меньше возни с масками.

Трудность: слабые линии исчезали на карте краёв, пока я не повысила контрастность скана. После этого последовательность стала стабильной.

Архитектурная визуализация

Я попробовала режим Depth на простой планировке гостиной с фотографии на телефон (22 января 2026 года). Цель: сохранить положение дивана и окна, исследовать материалы. При control_strength 0.7 модель соблюдала положения стен и оконную сетку, меняя при этом тональность дерева и текстуры ткани. Когда я дошла до 0.85, материалы начали выглядеть чрезмерно зафиксированными — слишком буквальными, без атмосферы. Для большинства интерьерных кадров я остановилась на 0.6 или 0.65.

Небольшое открытие: добавление подсказки об объективе в промпт («35mm, неглубокая глубина резкости») дало меньше, чем я ожидала, потому что карта глубины задавала тон. Когда мне нужно было другое ощущение от камеры, я переснимала референс с нового угла. Менее изощрённо, но надёжнее.

Концепт-арт персонажа

Режим Pose помог мне итерировать позу бега на пяти кадрах. Один и тот же персонаж, разные настроения. Я использовала быстрый схематичный рисунок из инструмента для поз в качестве управляющего изображения, затем накладывала промпты стиля: уличная одежда, контровой свет, сумерки. Руки улучшались от прохода к проходу, но всё равно требовали доработки. Я не стала с этим бороться. Для внутренней работы читаемых рук было достаточно; для финального арта я бы компоновала пальцы из более чистого прохода или дорисовывала их.

Что сохранялось: дуга тела и направление взгляда оставались стабильными. Это делало набор похожим на последовательность, а не пять несвязанных изображений.

Почему это важно для меня: ControlNet снижает необходимость микроуправления промптами, когда структура — это самая сложная часть. Он не устраняет необходимость в суждении. Он просто переносит внимание на то, что действительно важно.

Кому это может подойти:

Вы держите грубые референсные фотографии и хотите, чтобы они реально направляли результаты.
Вы рисуете в свободной манере и хотите чистые рендеры без потери жеста.
Вы делаете раскадровки и вам нужно, чтобы позы оставались читаемыми при смене стиля.

Кому, вероятно, не подойдёт:

Вы хотите точное портретное сходство без дополнительных шагов (вам понадобится рабочий процесс с референсом лица).
Вам не нравится предобработка или доработка референсных изображений.

Если вам интересно, начните с малого: выберите один режим, установите интенсивность 0.6 и запустите один и тот же вход пять раз, меняя только промпт. Наблюдайте, что меняется, а что отказывается двигаться. Это сопротивление — и есть ваша структура.

Я до сих пор храню записку на столе: «Исправь референс, а не промпт». Она спасает меня от споров с моделью, когда изображение просто говорит правду.