← Блог

Руководство по настройке CFG для Z-Image: Как избежать пересыщения и переэкспозиции

Оптимальная настройка CFG (guidance_scale) для Z-Image-Base: рекомендуемый диапазон — от 3,5 до 6. Чрезмерное значение CFG приводит к проблемам пересыщения. Для разных стилей рекомендуются различные значения CFG.

By Dora 9 min read
Руководство по настройке CFG для Z-Image: Как избежать пересыщения и переэкспозиции

На этой неделе я снова и снова получала изображения, которые казались немного… кричащими. Цвета были слишком яркими, светлые участки пересвечивались, и атмосфера не соответствовала моему запросу — даже когда сам объект был передан верно. Это небольшое раздражение подтолкнуло меня сесть с кофе и провести серию тихих тестов на Z-Image-Base — одни и те же промпты, одни и те же сиды, разные значения CFG — до тех пор, пока закономерности не стали очевидны.

Меня зовут Дора. Это руководство по настройке CFG для Z-Image — результат тех прогонов в сочетании с заметками из прошлого опыта работы с диффузионными моделями. Я не собираюсь навязывать вам конкретное значение. Я хочу показать, что изменилось для меня, почему это, скорее всего, происходит, и где небольшая корректировка может сделать работу более лёгкой, а не более громкой.

Что такое CFG

Влияние CFG на генерацию изображений

Classifier-Free Guidance (CFG) — это регулятор, определяющий, насколько строго модель должна следовать вашему промпту, а не своим собственным усвоенным приоритетам. Низкий CFG позволяет модели «бродить»; высокий CFG приближает её к вашим словам. На практике это менее мистично, чем звучит. Я представляю это как режиссёра, дающего указания: «Свободнее» или «придерживайся сценария».

Когда я прогоняла CFG от 1 до 9 на одинаковых промптах («мягкий утренний свет, керамическая кружка на деревянном столе, малая глубина резкости»), изменения были последовательными:

  • Низкий CFG (1–3): больше настроенческой вариативности, более мягкий контраст, более неожиданные текстуры. Иногда кружка превращалась в керамику грубой работы, а свет становился холоднее. Не ошибочно, просто интерпретативно.
  • Средний CFG (3,5–6): изображения стабилизировались, композиция удерживалась, а детали соответствовали промпту, не становясь хрупкими. Именно здесь я почувствовала облегчение.
  • Высокий CFG (7+): соответствие объекту оставалось высоким, но насыщенность цвета и микроконтраст резко возрастали. Светлые участки чаще пересвечивались. С первого взгляда выглядело эффектно, потом — утомительно.

Если вам нужен формальный источник, оригинальная статья о Classifier-Free Guidance Джонатана Хо и Тима Салиманса объясняет механизм: CFG масштабирует разницу между условными и безусловными предсказаниями, чтобы соблюдать баланс между точностью и разнообразием сэмплов.

Связь между значением CFG и соответствием промпту

Более высокий CFG увеличивает соответствие промпту, но ценой компромиссов:

  • Он не исправляет размытые промпты. Нечёткий промпт при CFG 8 по-прежнему нечёткий, просто громче.
  • Он может навязывать буквализм, который вступает в конфликт со стилем. При высоком guidance я замечала, что «блеск» проникал в изображение, даже когда я его не запрашивала, — как будто модель чрезмерно педантично воспроизводила каждый звук.
  • Он взаимодействует с негативными промптами. «Без пересветов, без перенасыщения» немного смягчало высокий CFG, но не так эффективно, как простое снижение регулятора.

Мой вывод: используйте CFG для «тонкой настройки» хорошего промпта, а не для спасения слабого. Оптимальная точка, как правило, там, где соответствие растёт, а цвет и освещение не становятся театральными.

Рекомендуемый диапазон CFG для Z-Image-Base

Низкий CFG (1–3): больше случайности, больше творчества

При CFG 2 на Z-Image-Base я получала приятную, почти киношную мягкость. Края были менее чёткими, и мелкие артефакты растворялись в зерне вместо пластикового блеска. Этот диапазон помогал при:

  • Сценах с атмосферным акцентом: туман, сумерки, боке, акварельные рендеры.
  • Раннем поиске идей: мне нужны были возможности, а не точность. Низкий CFG давал три правдоподобных направления из одного сида.

Ограничения, с которыми я столкнулась:

  • Смещение композиции: объекты перемещались, кадрирование менялось, руки становились неровными.
  • Конкретные детали промпта (бренд, количество объектов) размывались.

Если вы занимаетесь составлением мудборда или исследуете визуальный язык, низкий CFG — мягкий и генеративный вариант. Если вы работаете в дедлайн и должны соответствовать брифу, он, скорее всего, слишком свободен.

Средний CFG (3,5–6): точка баланса (рекомендуется 4,5)

Это была наиболее надёжная зона в моих тестах. При 4,5 Z-Image-Base вёл себя сотруднически, не становясь глянцевым. Несколько полевых заметок:

  • Цвета стабилизировались. Оттенки кожи перестали уходить в неон. Дерево выглядело как дерево, а не как лак.
  • Освещение оставалось выразительным, но не пересвечивало. Белые рубашки сохраняли текстуру.
  • Промпты соблюдались: если я просила «две чашки», то в большинстве случаев получала две чашки.

Почему я рекомендую 4,5 в качестве отправной точки:

  • Он передавал намерение промпта, оставляя пространство для стиля.
  • Он хорошо сочетался с небольшими негативными промптами (например, «чрезмерно насыщенный, пластиковый блеск»).
  • При шести сидах на промпт вариативность оставалась полезной, а не хаотичной.

Крайние случаи:

  • Очень техничные рендеры продуктов иногда требовали чуть более высокого значения (5–5,5) для чёткости краёв.
  • Живописные текстуры здесь выглядели нормально, но иногда лучше раскрывались при 3,5–4.

Высокий CFG (7+): риск перенасыщения

Я поднимала до 7–9, чтобы посмотреть, где что-то сломается. Ничего не сломалось, но изображения начали «кричать».

  • Насыщенность возрастала так, что сначала захватывала внимание на миниатюре, а потом утомляла в контексте.
  • Зеркальные блики становились резкими. Металлы казались кричащими, кожа — восковой.
  • В ровных полях появлялись шумовые паттерны — как будто модель слишком старалась.

Есть ли применения для высокого CFG? Несколько:

  • Ассеты с приоритетом на миниатюру, где броскость важнее нюансов.
  • Жёсткие брендовые ограничения — если вы также корректируете цвет в постобработке и следите за экспозицией.

Но если вы получаете «пластиковый эффект» или яркий засвет, от которого невозможно избавиться при грейдинге, сначала снизьте значение, прежде чем добавлять исправление за исправлением. В моих прогонах снижение с 7,5 до 5 решало больше проблем, чем любой список негативных промптов.

Диагностика распространённых проблем

Перенасыщение изображения / чрезмерно яркие цвета

Что я видела: красные и бирюзовые тона пробивались, градиенты образовывали полосы, и всё изображение воспринималось как HDR.

Вероятная причина: слишком высокий CFG в сочетании с сэмплерами, усиливающими контраст.

Что помогло:

  • Снизьте CFG на 1–2 пункта в первую очередь. Простая победа.
  • Добавьте лёгкий негативный промпт: «oversaturated, color clipping». Это подталкивало, но не заменяло изменение CFG.
  • Если возможно, уменьшите контрастную постобработку или переключитесь на сэмплер, лучше сохраняющий средние тона.

Связь с работой: ассеты стали лучше вписываться рядом с реальными фотографиями на странице. Я перестала бороться с цветом в постобработке.

Переэкспозиция изображения / переполнение светлых участков

Что я видела: белые рубашки теряли фактуру, окна светились как порталы. Гистограммы смещались вправо.

Вероятная причина: высокий CFG плюс промпты с «ярким» или «солнечным» освещением без ограничений.

Что помогло:

  • Снизьте CFG до диапазона 4–5.
  • Будьте конкретны: «мягкий рассеянный свет», «сохранить детали в светлых участках» или «без пересветов».
  • Скорректируйте освещение через промпт («пасмурно» давало больше эффекта, чем я ожидала). Если инструмент позволяет, немного уменьшите экспозицию/контраст в другом месте, вместо того чтобы бороться только с guidance.

Результат: блики остались, но с текстурой. Изображение воспринималось как снятое камерой, а не как рендер из шоурума.

Потеря деталей / пластиковый эффект

Что я видела: кожа выглядела восковой, ткань превращалась в плавные градиенты, микротекстура исчезала.

Вероятная причина: сочетание высокого CFG и стилистических терминов вроде «glossy», «cinematic lighting» или «ultra-detailed», которые парадоксально сглаживают поверхности.

Что помогло:

  • Снизьте CFG до ~4,5.
  • Замените «ultra-detailed» конкретными текстурными подсказками: «тонкое льняное плетение», «едва заметные поры», «матовая отделка».
  • Добавьте негативный промпт: «plastic, waxy, airbrushed».

На практике: это не экономило мне время на первом проходе, но после нескольких изображений я заметила, что это снижает умственные усилия. Меньше перегенераций. Меньше моментов «почему это выглядит ненастоящим?».

Рекомендации по CFG для разных стилей

Реалистичная фотография: CFG 4–5

Для фотореалистичных промптов диапазон 4–5 ощущался ближе всего к режиму «настроил и забыл». Я использовала его для портретов, сцен с рабочим столом и простых фудфото. При 4,5 текстура кожи сохранялась, тени не затемнялись, и объективы выглядели правдоподобно.

Полезные подсказки:

  • Описывайте освещение так, как это делает человек: «оконный свет, северная сторона, пасмурно».
  • Используйте небольшие негативные промпты: «oversaturated, plastic skin».
  • Держите термины для композиции простыми: «35мм, f/2.8, по пояс». Чрезмерно витиеватые промпты слишком давили на стиль и вступали в конфликт с реализмом.

Кому подходит: маркетологам и создателям контента, которые смешивают сгенерированные изображения с реальной фотографией. Они вписываются в брендовые страницы, не бросаясь в глаза.

Иллюстративный стиль: CFG 5–7

Иллюстрации предпочитали чуть более сильное guidance. При 5,5–6,5 линейная работа держалась вместе, а палитры были намеренными, не уходя в неон.

Полезные подсказки:

  • Будьте конкретны в отношении техники: «гуашевый смыв», «чернильный контур», «текстура шелкографии». Guidance тогда фиксируется на этой идее.
  • Если цвета кричат, снизьте CFG и закрепите подсказки для палитры («приглушённые землистые тона», «ограниченная палитра»).
  • Для концептуальных листов опускайтесь до 3,5, чтобы стимулировать вариативность между кадрами.

Кому подходит: командам, выстраивающим последовательные визуальные системы, приложениям, документации или образовательным материалам, где стилевая целостность важнее фотореалистичных трюков.

Взаимодействие CFG с другими параметрами

CFG работает не в одиночку. Несколько взаимодействий постоянно проявлялись в моей работе:

  • Сэмплер и шаги: с большим количеством шагов артефакты высокого CFG иногда сглаживались, но недостаточно, чтобы оправдать дополнительное время. Снижение CFG давало лучшие результаты, чем увеличение числа шагов.
  • Разрешение: апскейлинг при высоком CFG усиливал пластиковый блеск. Когда мне нужны были крупные выходные изображения, я держала CFG умеренным (≈4,5) и позволяла отдельному апскейлеру обрабатывать детали.
  • Негативные промпты: это приправа, а не спасение. Лучше всего работал небольшой целенаправленный список: «oversaturated, waxy skin, blown highlights». Длинные списки всего подряд делали изображение тусклым.
  • Стилистические токены: если вы включаете сильные стилевые подсказки («studio strobe, glossy magazine»), ожидайте, что они усилят воздействие высокого CFG. Либо смягчите стилистический язык, либо снизьте CFG.
  • Сиды и вариативность: три сида при 4,5 давали мне больше пригодных вариантов, чем один сид при 7. Первое ощущалось как выбор, второе — как исправление.

Если вы хотите понять причины глубже, метод Classifier-Free Guidance в диффузионных моделях эффективно масштабирует разницу между условными и безусловными предсказаниями. Подтолкните его слишком далеко, и вы усилите не только сигнал, но и шум, а также склонность к высококонтрастным представлениям. Хорошие вводные материалы: оригинальная статья о Classifier-Free Guidance и заметки guidance_scale в Diffusers. Они согласуются с тем, что я наблюдала: используйте guidance для направления, а не для принуждения.

Всё это сводится к небольшой практике, которой я теперь следую: начинаю с CFG 4,5, запускаю два сида и двигаю регулятор только тогда, когда могу назвать конкретную проблему (слишком ярко, слишком глянцево, слишком размыто). Это тихая работа, но она спасает меня от борьбы с моделью позже. Если вы встраиваете это в рабочий процесс или API-пайплайн, это краткое руководство по Z-Image-Base API показывает, где находится guidance_scale и как его корректно передать.

Поделиться