Руководство по настройке CFG для Z-Image: Как избежать пересыщения и переэкспозиции
Оптимальная настройка CFG (guidance_scale) для Z-Image-Base: рекомендуемый диапазон — от 3,5 до 6. Чрезмерное значение CFG приводит к проблемам пересыщения. Для разных стилей рекомендуются различные значения CFG.
На этой неделе я снова и снова получала изображения, которые казались немного… кричащими. Цвета были слишком яркими, светлые участки пересвечивались, и атмосфера не соответствовала моему запросу — даже когда сам объект был передан верно. Это небольшое раздражение подтолкнуло меня сесть с кофе и провести серию тихих тестов на Z-Image-Base — одни и те же промпты, одни и те же сиды, разные значения CFG — до тех пор, пока закономерности не стали очевидны.
Меня зовут Дора. Это руководство по настройке CFG для Z-Image — результат тех прогонов в сочетании с заметками из прошлого опыта работы с диффузионными моделями. Я не собираюсь навязывать вам конкретное значение. Я хочу показать, что изменилось для меня, почему это, скорее всего, происходит, и где небольшая корректировка может сделать работу более лёгкой, а не более громкой.

Что такое CFG
Влияние CFG на генерацию изображений
Classifier-Free Guidance (CFG) — это регулятор, определяющий, насколько строго модель должна следовать вашему промпту, а не своим собственным усвоенным приоритетам. Низкий CFG позволяет модели «бродить»; высокий CFG приближает её к вашим словам. На практике это менее мистично, чем звучит. Я представляю это как режиссёра, дающего указания: «Свободнее» или «придерживайся сценария».
Когда я прогоняла CFG от 1 до 9 на одинаковых промптах («мягкий утренний свет, керамическая кружка на деревянном столе, малая глубина резкости»), изменения были последовательными:
- Низкий CFG (1–3): больше настроенческой вариативности, более мягкий контраст, более неожиданные текстуры. Иногда кружка превращалась в керамику грубой работы, а свет становился холоднее. Не ошибочно, просто интерпретативно.
- Средний CFG (3,5–6): изображения стабилизировались, композиция удерживалась, а детали соответствовали промпту, не становясь хрупкими. Именно здесь я почувствовала облегчение.
- Высокий CFG (7+): соответствие объекту оставалось высоким, но насыщенность цвета и микроконтраст резко возрастали. Светлые участки чаще пересвечивались. С первого взгляда выглядело эффектно, потом — утомительно.
Если вам нужен формальный источник, оригинальная статья о Classifier-Free Guidance Джонатана Хо и Тима Салиманса объясняет механизм: CFG масштабирует разницу между условными и безусловными предсказаниями, чтобы соблюдать баланс между точностью и разнообразием сэмплов.

Связь между значением CFG и соответствием промпту
Более высокий CFG увеличивает соответствие промпту, но ценой компромиссов:
- Он не исправляет размытые промпты. Нечёткий промпт при CFG 8 по-прежнему нечёткий, просто громче.
- Он может навязывать буквализм, который вступает в конфликт со стилем. При высоком guidance я замечала, что «блеск» проникал в изображение, даже когда я его не запрашивала, — как будто модель чрезмерно педантично воспроизводила каждый звук.
- Он взаимодействует с негативными промптами. «Без пересветов, без перенасыщения» немного смягчало высокий CFG, но не так эффективно, как простое снижение регулятора.
Мой вывод: используйте CFG для «тонкой настройки» хорошего промпта, а не для спасения слабого. Оптимальная точка, как правило, там, где соответствие растёт, а цвет и освещение не становятся театральными.
Рекомендуемый диапазон CFG для Z-Image-Base

Низкий CFG (1–3): больше случайности, больше творчества
При CFG 2 на Z-Image-Base я получала приятную, почти киношную мягкость. Края были менее чёткими, и мелкие артефакты растворялись в зерне вместо пластикового блеска. Этот диапазон помогал при:
- Сценах с атмосферным акцентом: туман, сумерки, боке, акварельные рендеры.
- Раннем поиске идей: мне нужны были возможности, а не точность. Низкий CFG давал три правдоподобных направления из одного сида.
Ограничения, с которыми я столкнулась:
- Смещение композиции: объекты перемещались, кадрирование менялось, руки становились неровными.
- Конкретные детали промпта (бренд, количество объектов) размывались.
Если вы занимаетесь составлением мудборда или исследуете визуальный язык, низкий CFG — мягкий и генеративный вариант. Если вы работаете в дедлайн и должны соответствовать брифу, он, скорее всего, слишком свободен.
Средний CFG (3,5–6): точка баланса (рекомендуется 4,5)
Это была наиболее надёжная зона в моих тестах. При 4,5 Z-Image-Base вёл себя сотруднически, не становясь глянцевым. Несколько полевых заметок:
- Цвета стабилизировались. Оттенки кожи перестали уходить в неон. Дерево выглядело как дерево, а не как лак.
- Освещение оставалось выразительным, но не пересвечивало. Белые рубашки сохраняли текстуру.
- Промпты соблюдались: если я просила «две чашки», то в большинстве случаев получала две чашки.
Почему я рекомендую 4,5 в качестве отправной точки:
- Он передавал намерение промпта, оставляя пространство для стиля.
- Он хорошо сочетался с небольшими негативными промптами (например, «чрезмерно насыщенный, пластиковый блеск»).
- При шести сидах на промпт вариативность оставалась полезной, а не хаотичной.
Крайние случаи:
- Очень техничные рендеры продуктов иногда требовали чуть более высокого значения (5–5,5) для чёткости краёв.
- Живописные текстуры здесь выглядели нормально, но иногда лучше раскрывались при 3,5–4.
Высокий CFG (7+): риск перенасыщения
Я поднимала до 7–9, чтобы посмотреть, где что-то сломается. Ничего не сломалось, но изображения начали «кричать».
- Насыщенность возрастала так, что сначала захватывала внимание на миниатюре, а потом утомляла в контексте.
- Зеркальные блики становились резкими. Металлы казались кричащими, кожа — восковой.
- В ровных полях появлялись шумовые паттерны — как будто модель слишком старалась.
Есть ли применения для высокого CFG? Несколько:
- Ассеты с приоритетом на миниатюру, где броскость важнее нюансов.
- Жёсткие брендовые ограничения — если вы также корректируете цвет в постобработке и следите за экспозицией.
Но если вы получаете «пластиковый эффект» или яркий засвет, от которого невозможно избавиться при грейдинге, сначала снизьте значение, прежде чем добавлять исправление за исправлением. В моих прогонах снижение с 7,5 до 5 решало больше проблем, чем любой список негативных промптов.
Диагностика распространённых проблем
Перенасыщение изображения / чрезмерно яркие цвета
Что я видела: красные и бирюзовые тона пробивались, градиенты образовывали полосы, и всё изображение воспринималось как HDR.
Вероятная причина: слишком высокий CFG в сочетании с сэмплерами, усиливающими контраст.
Что помогло:
- Снизьте CFG на 1–2 пункта в первую очередь. Простая победа.
- Добавьте лёгкий негативный промпт: «oversaturated, color clipping». Это подталкивало, но не заменяло изменение CFG.
- Если возможно, уменьшите контрастную постобработку или переключитесь на сэмплер, лучше сохраняющий средние тона.
Связь с работой: ассеты стали лучше вписываться рядом с реальными фотографиями на странице. Я перестала бороться с цветом в постобработке.
Переэкспозиция изображения / переполнение светлых участков
Что я видела: белые рубашки теряли фактуру, окна светились как порталы. Гистограммы смещались вправо.
Вероятная причина: высокий CFG плюс промпты с «ярким» или «солнечным» освещением без ограничений.
Что помогло:
- Снизьте CFG до диапазона 4–5.
- Будьте конкретны: «мягкий рассеянный свет», «сохранить детали в светлых участках» или «без пересветов».
- Скорректируйте освещение через промпт («пасмурно» давало больше эффекта, чем я ожидала). Если инструмент позволяет, немного уменьшите экспозицию/контраст в другом месте, вместо того чтобы бороться только с guidance.
Результат: блики остались, но с текстурой. Изображение воспринималось как снятое камерой, а не как рендер из шоурума.
Потеря деталей / пластиковый эффект
Что я видела: кожа выглядела восковой, ткань превращалась в плавные градиенты, микротекстура исчезала.
Вероятная причина: сочетание высокого CFG и стилистических терминов вроде «glossy», «cinematic lighting» или «ultra-detailed», которые парадоксально сглаживают поверхности.
Что помогло:
- Снизьте CFG до ~4,5.
- Замените «ultra-detailed» конкретными текстурными подсказками: «тонкое льняное плетение», «едва заметные поры», «матовая отделка».
- Добавьте негативный промпт: «plastic, waxy, airbrushed».
На практике: это не экономило мне время на первом проходе, но после нескольких изображений я заметила, что это снижает умственные усилия. Меньше перегенераций. Меньше моментов «почему это выглядит ненастоящим?».
Рекомендации по CFG для разных стилей
Реалистичная фотография: CFG 4–5
Для фотореалистичных промптов диапазон 4–5 ощущался ближе всего к режиму «настроил и забыл». Я использовала его для портретов, сцен с рабочим столом и простых фудфото. При 4,5 текстура кожи сохранялась, тени не затемнялись, и объективы выглядели правдоподобно.
Полезные подсказки:
- Описывайте освещение так, как это делает человек: «оконный свет, северная сторона, пасмурно».
- Используйте небольшие негативные промпты: «oversaturated, plastic skin».
- Держите термины для композиции простыми: «35мм, f/2.8, по пояс». Чрезмерно витиеватые промпты слишком давили на стиль и вступали в конфликт с реализмом.
Кому подходит: маркетологам и создателям контента, которые смешивают сгенерированные изображения с реальной фотографией. Они вписываются в брендовые страницы, не бросаясь в глаза.
Иллюстративный стиль: CFG 5–7
Иллюстрации предпочитали чуть более сильное guidance. При 5,5–6,5 линейная работа держалась вместе, а палитры были намеренными, не уходя в неон.
Полезные подсказки:
- Будьте конкретны в отношении техники: «гуашевый смыв», «чернильный контур», «текстура шелкографии». Guidance тогда фиксируется на этой идее.
- Если цвета кричат, снизьте CFG и закрепите подсказки для палитры («приглушённые землистые тона», «ограниченная палитра»).
- Для концептуальных листов опускайтесь до 3,5, чтобы стимулировать вариативность между кадрами.
Кому подходит: командам, выстраивающим последовательные визуальные системы, приложениям, документации или образовательным материалам, где стилевая целостность важнее фотореалистичных трюков.
Взаимодействие CFG с другими параметрами
CFG работает не в одиночку. Несколько взаимодействий постоянно проявлялись в моей работе:
- Сэмплер и шаги: с большим количеством шагов артефакты высокого CFG иногда сглаживались, но недостаточно, чтобы оправдать дополнительное время. Снижение CFG давало лучшие результаты, чем увеличение числа шагов.
- Разрешение: апскейлинг при высоком CFG усиливал пластиковый блеск. Когда мне нужны были крупные выходные изображения, я держала CFG умеренным (≈4,5) и позволяла отдельному апскейлеру обрабатывать детали.
- Негативные промпты: это приправа, а не спасение. Лучше всего работал небольшой целенаправленный список: «oversaturated, waxy skin, blown highlights». Длинные списки всего подряд делали изображение тусклым.
- Стилистические токены: если вы включаете сильные стилевые подсказки («studio strobe, glossy magazine»), ожидайте, что они усилят воздействие высокого CFG. Либо смягчите стилистический язык, либо снизьте CFG.
- Сиды и вариативность: три сида при 4,5 давали мне больше пригодных вариантов, чем один сид при 7. Первое ощущалось как выбор, второе — как исправление.
Если вы хотите понять причины глубже, метод Classifier-Free Guidance в диффузионных моделях эффективно масштабирует разницу между условными и безусловными предсказаниями. Подтолкните его слишком далеко, и вы усилите не только сигнал, но и шум, а также склонность к высококонтрастным представлениям. Хорошие вводные материалы: оригинальная статья о Classifier-Free Guidance и заметки guidance_scale в Diffusers. Они согласуются с тем, что я наблюдала: используйте guidance для направления, а не для принуждения.
Всё это сводится к небольшой практике, которой я теперь следую: начинаю с CFG 4,5, запускаю два сида и двигаю регулятор только тогда, когда могу назвать конкретную проблему (слишком ярко, слишком глянцево, слишком размыто). Это тихая работа, но она спасает меня от борьбы с моделью позже. Если вы встраиваете это в рабочий процесс или API-пайплайн, это краткое руководство по Z-Image-Base API показывает, где находится guidance_scale и как его корректно передать.


