Z-Image-Base vs Z-Image-Turbo: Сравнение качества, разнообразия и стоимости

Привет, ребята. Меня зовут Дора. Хаха, всё началось с небольшой проблемы во вторник вечером: баннерное изображение, которое раз за разом выходило чуть размытым, а мне нужны были чёткий текст и резкие края. Несколько недель я переключалась между Z-Image-Base и Z-Image-Turbo в основном на интуиции. В тот вечер интуиции оказалось недостаточно. Я выделила час, потом ещё один, потом всю оставшуюся неделю и прогнала одни и те же промпты через обе модели при нескольких простых условиях.

Это не обзор. Это то, что я заметила в ходе обычной работы: заголовки слайдов, лёгкие изображения для соцсетей, концепт-лист для страницы продукта и пара сторибордов. Если вы уже жонглируете слишком многими инструментами и просто хотите знать, в чём Z-Image-Base и Z-Image-Turbo реально расходятся — вот короткая и внимательная версия.

Общий обзор функций

Сравнение поддержки CFG

Я оставляла промпты одинаковыми и варьировала только classifier-free guidance (CFG). У Base повышение CFG с 5 до 9 уплотняло композицию и сохраняло верность промпту, не подавляя стиль. При 11+ Base начинала выглядеть немного переобученной — элементы становились жёсткими, но не сломанными.

Turbo вёл себя иначе. Ниже CFG 6 он блуждал: красивые изображения, но иногда слишком «творческие» для клиентской работы. От 7 до 8 Turbo вставал на место — хорошее соответствие, меньше блужданий, — но после 9 быстро становился хрупким. Появлялись пересвеченные блики и обрезанные тени, словно модель слишком старательно угождала словам, а не глазу. Запись от среды: «Оптимальная зона Turbo: 7–8. Base: 6–9, более снисходителен».

Почему это важно: если вы итерируете, подстраивая CFG, Base даёт более широкий и спокойный диапазон. Turbo хочет, чтобы вы выбрали полосу движения заранее и держались её.

Поддержка негативных промптов

Я не опираюсь сильно на негативные промпты, но они помогают убрать странные завитки, лишние руки, случайные логотипы, текстовый мусор. Base уважал лёгкие негативы («no watermark», «no border»), не обрушивая остальные детали. Казалось, что он вычитает чисто.

Turbo воспринимал негативы громко. «No text» иногда смягчал похожие на глифы формы, которые я как раз хотела сохранить (паттерны, вывески вдалеке). Когда я снижала интенсивность негативов («minimize text artifacts»), Turbo вёл себя нормально. Этот эффект напомнил мне: негативы нужно писать на том же уровне интенсивности, что и желаемый стиль, — особенно с Turbo.

Руководство по референсным изображениям

Я тестировала два режима: свободное вдохновение (цветовая выкройка и намёк на компоновку) и близкое совпадение (макеты продуктов, где важны пропорции). С Base референсные изображения действовали как твёрдая рука. Модель заимствовала палитру и грубую компоновку, оставляя место для стиля, заданного промптом. Хорошо для мудбордов.

Turbo с теми же референсами склонялся к подражанию. Для задач близкого совпадения это было полезно: ракурсы продукта и освещение следовали референсу гораздо точнее, даже при малом числе шагов. Но для исследовательской работы готовность Turbo следовать иногда выравнивала вариативность между попытками.

Если ваш рабочий процесс использует референсы как рельсы, Turbo легко направлять. Если вам нужен более жёсткий структурный контроль помимо простого руководства по референсам, это краткое руководство по Z-Image-Turbo ControlNet объясняет, как точнее фиксировать композицию.

Разница в количестве шагов сэмплирования

Я придерживалась значений по умолчанию, указанных в документации и интерфейсе: Base при 50 шагах, Turbo при 8. Выпущенный командой Tongyi-MAI из Alibaba, Z-Image-Turbo использует всего 8 шагов сэмплирования благодаря дистилляции Decoupled-DMD, что позволяет достичь задержки менее секунды на серверных GPU при размещении в потребительских картах с 16 ГБ VRAM. Я пробовала снизить Base до 30 и поднять Turbo до 12. Base при 30 шагах терял часть микроконтраста в тканях и листве — не драматично, но достаточно заметно в экспортах для печати. Turbo при 12 шагах немного улучшил стабильность (меньше мелких краевых артефактов), но не изменил композицию существенно.

На практике: если вам важны «последние 10%» детализации, Base при 50 шагах того стоил. Если вы обычно используете меньшие холсты или кадрирование для соцсетей, 8 шагов Turbo вполне подходят — быстрее, чем мозг успевает переключиться, а это само по себе ценно.

Сравнение качества изображений

Богатство деталей

Я провела несколько микротестов: металлические текстуры, пряди волос против контрового света и шрифт с засечками среднего размера. Base стабильно давал более богатую микродетализацию. Металлы имели более чёткую анизотропию, волосы выглядели менее размазанными, тени сохраняли мягкий градиент вместо полосатости. На больших холстах (2048 пикселей) Base держался лучше при масштабировании до 100%.

Turbo был неплох — он просто казался настроенным на «хорошо с первого взгляда». На размере телефона его изображения выглядели сочными и законченными. Вблизи я видела некоторое сглаживание, и мелкие элементы сливались раньше. Для веб-баннеров и слайдов Turbo подходил. Для печати или плотного кадрирования побеждал Base.

Разнообразие стилей

Я ожидала, что Base окажется универсалом, но Turbo удивил меня в коротких сессиях. Он быстро переходил между стилями при небольших изменениях промптов — фото, линейный рисунок, мягкая акварель — почти без переноса. Это помогало, когда мне нужны были быстрые вариации для колоды.

Однако в более длительной сессии Base охватывал больше территории. Небольшие изменения формулировок давали свежий вид без потери качества. Запись от четверга: «Base исследует глубже, Turbo исследует быстрее». Если вам нравится немного блуждать и уточнять, Base вознаграждает терпение. Если вам нужен спектр быстро, Turbo делает убедительный первый проход.

Возможности рендеринга текста

Ни одна из моделей не является специализированным рендерером текста, и я бы не строила на этом рекламную кампанию. Тем не менее я пробовала короткие слова (3–6 букв), высококонтрастные, простые шрифты.

Base надёжнее справлялся с простыми словами в верхнем регистре, особенно при 50 шагах. Мне удавалось получить приемлемый LOGO или SALE при 1024 пикселях. Turbo норовил сгибать или терять буквы, особенно меньшего размера. Когда я подняла Turbo до 12 шагов и упростила промпты, стало лучше, но Base так и не догнал.

Обходной путь, который помог в обоих случаях: добавьте тонкий сплошной фоновый блок за текстовой областью в описании промпта. Похоже, это снижает желание модели стилизовать формы букв. Практическая заметка: для любого ресурса, где текст важен, я всё равно накладываю настоящий текст после генерации.

Скорость и задержка

Base: ~3–5 секунд (50 шагов)

Измерено при проводном подключении, вечерами по CET. Base в среднем занимал 3,6–4,8 секунды для изображений 1024 пикселя при 50 шагах — примерно ~120 генераций. Скачки до 6–7 секунд случались в одном временном окне (около 21:00), но быстро выравнивались. Ожидание меня не беспокоило, потому что обычно я группирую промпты и просматриваю результаты за один раз.

Две небольшие заметки:

Воспринимаемая скорость имеет значение. Более стабильный тайминг Base позволял мне войти в ритм: написать → поставить в очередь → выпить чай → просмотреть. Этот ритм снижает усталость от переключения контекста.
Если я опускалась до 30 шагов, экономила в среднем ~1,2 секунды, но потеря качества не стоила этого для ресурсов, которые я могу использовать повторно.

Turbo: <1 секунды (8 шагов)

Turbo был поразительным. Большинство изображений появлялись за 400–800 мс при 1024 пикселях, даже в более загруженные часы. Скорость побуждала меня итерировать прямо в процессе написания промптов. Я меняла фразу и получала почти мгновенный отклик.

Это не всегда экономило реальное время — иногда я кликала больше, потому что могла, — но снижало умственную нагрузку при работе «найти направление». Для быстрых сторибордов или миниатюр это почти мгновенное ощущение делало процесс легче. Один компромисс: быстрые результаты чаще толкали меня принимать «достаточно хорошее», что нормально для черновиков и рискованно для финальных версий.

Анализ стоимости

Base: $0,01 за изображение

За цент за изображение Base обошёлся мне в $1,11 за набор из 111 изображений в этой тестовой партии. Если бы я производила еженедельные концепт-листы (скажем, 400 изображений), это около $4. Реальная стоимость Base — это меньше о деньгах и больше о терпении: каждое изображение требует нескольких дополнительных секунд, что накапливается, если вы за рулём.

Turbo: $0,005 за изображение

Полцента за изображение звучат ничтожно, пока не умножишь. Мои 250 быстрых вариаций для колоды слайдов обошлись в $1,25. Если вы прототипируете функции внутри продукта (много тестовых снимков), Turbo мягче для бюджетов и CI-пайплайнов.

Сравнивать Z-Image-Base и Z-Image-Turbo чисто по стоимости слишком упрощённо, но картина ясна: Turbo дешевле для исследования, Base по-прежнему достаточно дёшев для финального этапа. Что помогло мне: делать 80% блуждания с Turbo, затем переключаться на Base для финальных вариантов.

Дерево принятия решений

Вот путь выбора, который я использовала к пятнице. Он не универсален — просто тот, что помогал мне оставаться спокойной и двигаться вперёд.

Нужно ли мне направление менее чем за минуту? Turbo. Напишу более свободный промпт, установлю CFG 7–8 и быстро просмотрю 6–10 результатов.
Нужна ли мне детализация, выдерживающая кадрирование 100% или печать? Base. Оставлю 50 шагов, CFG 6–9 и позволю рендериться без многозадачности.
Использую ли я референсное изображение как рельсы (совпадение ракурса, освещения, пропорций)? Turbo. Он следует точнее.
Использую ли я референс как настроение (цвет, ощущение, грубая компоновка)? Base. Он оставляет пространство для дыхания.
Важен ли текст в изображении? Base. После этого я всё равно добавляю настоящий текст.
Ограничен ли я бюджетом или квотой и просто нужно много безопасных вариаций? Turbo. Он экономит бюджет и быстро отбрасывается.
Итерирую ли я с тонкими негативами (убрать одно, не притупляя остальное)? Base. Он вычитает мягче.

Если вам нужно простое правило для Z-Image-Base против Z-Image-Turbo: Turbo — для поиска, Base — для хранения. Не всегда, но достаточно часто, чтобы я ему доверяла.

Последнее небольшое наблюдение: скорость соблазняет принять решение рано. Качество приглашает посмотреть дважды. Иногда мне нужен толчок, иногда — пауза. Ваша работа может склоняться в ту или иную сторону. Если вы где-то посередине — начните с Turbo, чтобы набросать эскиз, и завершите с Base, чтобы зафиксировать результат.