Руководство по референсным изображениям Z-Image: Сохранение композиции при изменении стиля

Привет, я Дора. Знаете, в чём моя проблема? Я могла однажды создать отличную картинку, а потом не смочь повторить её. Тот же промпт, чуть другая задача — совершенно иное настроение. Мне хотелось более стабильного результата: не шаблон, просто ограничители.

Именно тогда я провела неделю, разбираясь с референсными изображениями в Z-Image. Не потому что это что-то модное, а потому что технология обещала простую вещь: сохранять важное из исходного изображения, позволяя модели исследовать. Ниже — заметки, которые мне были бы полезны в самом начале: как это ощущается на практике, где спотыкается и какие тихие настройки дали наибольший результат.

Что такое референсное изображение

Референсное изображение (иногда называемое img2img кондиционированием или reference conditioning) позволяет передать модели реальное изображение вместе с текстовым промптом. Модель использует это изображение как якорь: стиль, композиция, цветовая палитра или структура — в зависимости от настроек — при этом она всё равно прислушивается к вашим словам.

На практике я воспринимаю референсное изображение Z-Image как «задатчик тона». Я не прошу его делать всё. Я использую его, чтобы снизить разброс там, где это важно (поза, палитра, компоновка), и оставляю остальное промпту.

Отличие от чистой генерации по тексту

Я запустила один и тот же промпт двумя способами: без изображения и с референсом. Без изображения я получила занятный разброс результатов: что-то атмосферное, что-то плоское, несколько совсем неудачных. Когда я добавила референсное изображение (обычная сцена со столом, снятая на телефон), модель сохранила расположение стола, мягкий дневной свет и даже фактуру дерева — при этом всё равно меняя объекты по моему запросу. Это не ощущалось как «заморозка». Скорее как вежливое ограничение.

Чистый текст отлично подходит для исследования. Но когда нужна повторяемость (варианты для кампании, ракурсы продукта, слайды), референсное изображение сокращает случайность. Именно здесь моя умственная нагрузка снизилась больше всего: меньше перезапусков, меньше изощрённых промптов.

Сфера влияния референсного изображения

Референс может влиять на разные уровни:

Глобальная композиция: угол камеры, расположение объекта, пустое пространство.
Стилевые подсказки: освещение, плотность текстуры, цветовая температура.
Локальная структура: силуэт, поза, контур продукта.

Что меня удивило: влияние референсного изображения проявляется даже тогда, когда я не описываю эти детали в тексте. Если на референсе жёсткий верхний свет, результаты могут унаследовать его — если только не уравновесить это в промпте (например, «мягкий боковой свет, приглушённые блики»).

Подробное объяснение параметра «Strength»

В разных системах он называется по-разному (strength, fidelity, guidance scale for image и т.д.). Смысл схож: низкие значения прижимают результат к референсу, высокие — ослабляют хватку. Если вы также настраиваете влияние текста, этот разбор лучших настроек CFG для Z-Image хорошо сочетается с регулировкой strength.

Ниже показано, как эти диапазоны работали у меня примерно в 60 генерациях. Ваш опыт может отличаться, модели разные, но форма кривой обычно сохраняется.

0.2–0.4: Сильное следование референсу (сохранение исходного изображения)

При значениях 0.2–0.4 референсное изображение Z-Image действует как незастывший цемент. Модель сохраняет композицию, освещение и даже мелкие текстуры. Если я меняю текст, например «замени ноутбук на планшет», она обычно это делает, но планшет оказывается ровно там, где был ноутбук. Отлично подходит для:

Замены цвета продукта
Незначительной смены реквизита
Обновления этикеток или упаковки

Сложность: появляются артефакты, если текст запрашивает структурные изменения, которые референс не может поддержать. Пример: попытка открыть закрытый ноутбук в той же позе при значении 0.3 дала деформированную геометрию. Когда я упираюсь в эту стену, я либо немного увеличиваю strength, либо меняю референс на тот, где поза совместима.

0.4–0.6: Сбалансированная зона

Это был мой рабочий режим. При значении 0.5 модель сохраняет основу сцены, но перерабатывает детали без усилий. Композиция держится, объекты могут немного сдвинуться, освещение может смягчиться или потеплеть. Достаточно последовательности для набора связанных изображений, при этом всё не выглядит клонированным.

Что помогло: явно указывать, что сохранить. Я получала более чистые результаты с промптами вроде «сохрани угол стола и дневной свет, замени кружку стеклянным стаканом, добавь растение, малая глубина резкости». Комбинация среднего strength и явных ограничений оказалась лучше расплывчатых прилагательных.

0.6–0.8: Слабое следование (больше творчества)

Здесь референс становится предложением, а не правилом. Модель свободно меняет угол камеры, добавляет или убирает элементы, а иногда обновляет стиль. Я использовала значение 0.7 для расширения мудборда: то же настроение, новые пространства. Около 30–40% результатов всё ещё перекликались с исходной палитрой.

Предостережение: в этом диапазоне модель чаще неправильно считывает мелкие детали продукта (разъёмы, узоры строчки), если не усилить их в тексте или не предоставить референс с более высоким разрешением. Я замечала странные швы на сумках и неправильные фаски на устройствах. Поправимо, но стоит проверять.

0.8–1.0: Почти игнорирование референсного изображения

Выше ~0.8 я воспринимаю референс как подсказку с прошлой встречи. Модель может уловить цвета или грубый силуэт, но не многое сверх того. Иногда этого достаточно: если всё, что мне нужно, — «сохрани тёплую деревянную атмосферу», значение 0.85 справится, допуская новые ракурсы.

Но для продакшена я здесь надолго не задерживаюсь. Это ближе к чистой текстовой генерации с крошечным толчком. Когда я оказываюсь на значении 0.9, это обычно означает, что я выбрала неправильный референс для задачи и пытаюсь выжать только палитру. Обычно лучше выбрать более подходящий референс и вернуться к 0.5.

Реализация через API

Я тестировала вызовы API с помощью простого requests и небольшой обёртки. Я предпочитаю начинать с чистого HTTP, потому что это показывает, что действительно необходимо, а что — лишний шум.

Если вы новичок в reference conditioning, стоит просмотреть документацию провайдера о том, как они определяют strength и какие значения по умолчанию используют. В качестве справочного материала по похожим рабочим процессам мне помогли руководства Hugging Face Diffusers по image-to-image и ControlNet. Названия разные, идея та же.

Способ передачи параметра «image»

В большинстве API, которые я пробовала, референсное изображение можно передать одним из способов:

Публичный URL (быстрее всего для прототипирования, следите за сжатием)
Data URI в формате base64 (надёжно, немного многословно)
Multipart upload (подходит для локальных файлов, позволяет контролировать EXIF/качество)

Обычно я отправляю PNG или высококачественный JPEG размером около 1024 пикселей по длинной стороне. Слишком маленькое — детали смываются; слишком большое — платите за пропускную способность без улучшения результата. Если АPI поддерживает несколько референсных изображений, начните с одного. Слишком много одновременно может взаимно нейтрализовать сигналы.

Пример кода на Python

Вот минималистичный шаблон, который я использовала. Он намеренно простой, чтобы вы могли его адаптировать. Замените endpoint и ключ на данные вашего провайдера.

暂时无法在飞书文档外展示此内容

Практические сценарии применения

Перенос стиля

Я использовала чистый снимок продукта как референс и попросила «студийный портрет в стиле мягкой плёнки, галация, плавное угасание». При значении 0.45 модель сохранила силуэт продукта и сделала освещение кинематографичным, не искажая края. Когда я опустила значение до 0.25, она держалась за студийный блеск оригинала — неплохо, но менее стилизованно. Если хотите более выразительный стиль, двигайтесь к 0.6 и усиливайте 2–3 конкретными стилевыми подсказками. Больше — и это становится шумом.

Варианты изображений продукта

Для обновления лендинга мне нужно было восемь ракурсов, которые ощущались бы как родственники, а не клоны. Я сделала одну аккуратную постановку и использовала её как референсное изображение Z-Image для всех промптов. Strength на 0.5 дало мне одинаковое зерно и баланс белого на всех снимках, позволяя при этом повернуть объект, добавить руку или поменять реквизит на фоне. Экономия времени на изображение была небольшой (может, две минуты), но умственное облегчение от отсутствия вопроса «почему это так сильно отличается?» было реальным.

Уточнение концептуальных диаграмм

Диаграммы — это место, где референсное управление тихо блистает. Я набросала макет в Figma — блоки, стрелки, примерные подписи — экспортировала PNG и использовала его как референс. При значении 0.4 я могла описывать стиль («минималистичный, мягкие серые линии, светлый акцентный цвет»), а модель сохраняла структуру. Это убрало один круг правок. Если подпись смещалась, я корректировала исходный файл Figma и перезапускала, вместо того чтобы бороться с промптом.

Лучшие практики

Начинайте с чистого референса. Выровняйте, уберите беспорядок, нормализуйте экспозицию. Модель копирует больше, чем вы думаете.
Выбирайте strength под задачу. 0.5 — безопасная первая остановка: уменьшайте для точности, увеличивайте для исследования.
Говорите, что сохранить. Короткие явные ограничения («сохрани угол и палитру») уменьшают дрейф.
Подбирайте разрешение под нужды. Около 1024 пикселей по длинной стороне — разумный дефолт для большинства API.
Итерируйте маленькими шагами. Меняйте по одному (промпт или strength), чтобы видеть причину и следствие.
Фиксируйте seed во время настройки. Убирайте его позже для разнообразия.
Следите за накоплением смещения. Если постоянно использовать результат как следующий референс, стиль может закостенеть. Периодически возвращайтесь к оригиналу или нейтральной базе.
В командной работе сохраняйте триаду: референсное изображение, текст промпта и числовое значение strength. Будущий вы скажет спасибо прошлому.

Если вас окружают инструменты, обещающие магию, — это из тихих. Он не сделает за вас вкусовые решения. Он просто удержит вашу руку. Я заметила это в одну из поздних вечерних сессий: тот же стол, тот же свет, меньше сомнений. Не большой момент, но он запомнился.