Обучение Z-Image Turbo LoRA на WaveSpeed: Набор данных, Шаги и Распространённые Ошибки

Обучение Z-Image Turbo LoRA на WaveSpeed: Набор данных, Шаги и Распространённые Ошибки

Привет, дружище. Я Дора.

На прошлой неделе мне нужен был небольшой, последовательный стиль для набора изображений заголовков. Стоки выглядели неправильно, а ручная настройка промптов постоянно дрейфила. Так что я попробовал то, чего долго избегал: быструю LoRA на Z-Image Turbo внутри WaveSpeed. Я ожидал щепетильных настроек и множества проб и ошибок. Что я получил, было проще, чем я думал — не без усилий, просто аккуратно. Вот как я натренировал Z-Image Turbo LoRA на WaveSpeed за два вечера в январе 2026 года, что сработало, что нет и какие настройки я буду переиспользовать. Это не гайд для выжимания последних процентов. Это стабильная база, которая держала голову ясной и результаты предсказуемыми.

Правила датасета

Что я собирал

Я держал размер маленьким: 45 изображений для определённого визуального стиля (приглушённый, чистые линии, нежная текстура бумаги). У меня были хорошие результаты между 30–120 изображениями. Меньше 20 обычно переобучается; свыше 150 вы тренируете больше файн-тюна, чем LoRA, и преимущество скорости Z-Image Turbo начинает сглаживаться.

Разнообразие важнее количества

Я разделил набор:

  • 70% изображений «основного вида» (стиль, который я хочу научить),
  • 30% контекстного разнообразия (разные объекты/фоны, чтобы LoRA не связывала стиль с одной сценой).

Углы, освещение и соотношения сторон варьировались. Я избегал почти дубликатов (не три кадра одного объекта с смещением на 5°).

Размер и формат

  • Разрешение: 768px на коротком краю. Turbo модели справляются с 1024, но 768 сделал тренировку легче и уменьшил артефакты в моих тестах.
  • Формат: PNG или JPEG высокого качества. Я удалил метаданные. Большие встроенные профили иногда слегка сбивали цвета.
  • Кадрирование: Я кадрировал, чтобы сохранить объект доминирующим, но не центрировал его каждый раз. Симметрия делает модели ленивыми.

Советы по подписям

Я попробовал два прохода: сначала автоматическое тегирование, потом лёгкое редактирование. Автоматические подписи донесли меня до 70%. Последние 30% имели значение.

Держите подписи короткими и последовательными

  • 1–2 предложения или компактный список тегов.
  • Упомяните токен стиля (подробнее ниже) плюс слово класса.
  • Не описывайте всё. Назовите только то, что стабильно и важно.

Пример, который я использовал:

  • “soka-style, минималистичная иллюстрация керамической кружки на столе, мягкая текстура бумаги, приглушённая палитра.”
  • “soka-style, простое растение в глиняном горшке, боковое освещение, чистое негативное пространство.”

Слова класса помогают

Если вы учите стиль, используйте слова класса (иллюстрация, фото, портрет, снимок продукта). Если вы учите объект/персонажа, используйте его название (кружка, рюкзак, планер). Это помогает LoRA обобщаться. Без слов класса мои ранние версии заставляли LoRA цепляться к разметкам.

Не переобучайте прилагательными

Я удалил повторяющиеся прилагательные после второго прохода. Если каждая подпись говорит «тёплый, уютный, мягкий», модель блокируется на этом настроении даже когда вы этого не хотите. Я сохранил одно прилагательное для тона.

Отрицательные сигналы

Я добавил лёгкое отрицание в несколько подписей, где это действительно имело значение: «без резких теней». Не везде, просто где контраст был неправильный в исходном изображении. Слишком много отрицаний делало модель упрямой при выводе.

Маленькая заметка: я попробовал обойтись без подписей для пяти изображений как тест. Результаты стали немного более шумными. Не ужасно, но я бы не пропустил подписи, если консистентность важна.

Базовые параметры тренировки

Это настройки, которые дали мне стабильные результаты на WaveSpeed с Z-Image Turbo. Я провел три коротких тренировки (около 18–22 минут каждая на стандартном GPU в моём рабочем пространстве). Ваши времена могут отличаться.

Основные настройки, которые я переиспользовал

  • Базовая модель: Z-Image Turbo (последняя версия на январь 2026)
  • LoRA ранг (dim): 16 для тонкого стиля; 32 когда стилю нужна большая выразительность. Я остановился на 16.
  • Alpha: соответствуйте рангу (16) или половине (8). Я применил совпадение.
  • Скорость обучения: 1e-4 для начала. 2e-4 если стиль не приживается. 1e-3 переварился быстро в моих тестах. Документация Hugging Face по тренировке LoRA рекомендует начинать с 1e-4 для большинства стабильных диффузионных моделей.
  • Размер батча: 2–4. Я использовал 4, чтобы держать шаги в разумных пределах.
  • Эпохи/шаги: Стремитесь к 1–2 полным проходам по данным. Для 45 изображений × 10 повторений ÷ батч 4 ≈ 112 шагов за эпоху. Я тренировал 2 эпохи (≈224 шага). Более 3 эпох начали запоминать фоны.
  • Планировщик: Cosine или constant с warmup. Я использовал cosine с 5% warmup.
  • Точность: bfloat16 когда доступна. Здесь было нормально.

Регуляризирующие изображения

Со стилевыми LoRA, я не всегда добавляю регуляризацию. Для объектов или персонажей я добавляю 50–100 классовых изображений (простая «кружка», «портрет»), чтобы держать анатомию и формы честными. На Turbo это заметно уменьшило странные похожие-на-руки листья на снимках растений.

Контрольные точки и сохранение

Я включил сохранение каждые 50–80 шагов. Это позволило мне вернуться к самому сладкому моменту, который для моего набора был около шага 180. Более поздние шаги выглядели чище, но менее гибко в промптах.

Если вы хотите быструю проверку здравомыслия: сделайте сначала прогон на 60–90 шагов. Это не будет идеально, но подскажет вам, учит ли ваш датасет правильный урок.

Слова-триггеры

Я использовал уникальный токен для закрепления стиля: “soka-style”. Вы можете использовать что-то вроде “kavli-ark” или “mivva”. Короткое, придуманное и вряд ли столкнётся с реальными словами.

Как я писал подписи

  • Начните подписи с токена один раз: “soka-style, минималистичная иллюстрация …”
  • Добавьте слово класса: иллюстрация, фото, рендер, что бы ни подходило.
  • Держите это последовательным по всему датасету.

Как я писал промпты

  • Позитивный: “фото продукта керамической кружки на деревянном столе, soka-style, мягкая текстура бумаги, приглушённые цвета”
  • Негативный: “резкие тени, сильное зерно, текстовой водяной знак, хроматическая аберрация”

Когда избегать слов-триггеров

Если вы тренируете очень специфичный объект (бутылка бренда, талисман), используйте токен + слово класса (“mivva-bottle”) в подписях, но вы не обязаны вставлять токен в каждый промпт при выводе. В моих тестах Turbo уважал распределение тренировки: иногда одного слова класса было достаточно. Токен помогал когда сцена усложнялась.

Одна странность: складирование двух токенов стиля запутало модель (“soka-style, nova-style”). Я получил мутное смешение. Один токен за раз был чище.

Изображения валидации

Валидация спасла меня от погони за привидениями.

Фиксированные семена и маленькая сетка

Я установил три промпта, о которых я забочусь, и держал их фиксированными между прогонами:

  1. “керамическая кружка на столе, soka-style, мягкая текстура бумаги, приглушённые цвета”
  2. “лиственное растение у окна, soka-style, боковое освещение, чистый фон”
  3. “планер и ручка, soka-style, вид сверху, нежные тени”
  • Семя (seed): фиксированное (я использовал 12345). Одно семя на промпт.
  • Шаги: 20–28 для Turbo. Свыше 30 начали пересильно заточаться.
  • CFG: 3.5–6. Мне нравилось 4.5 для баланса.
  • Сэмплер: DPM++ 2M Karras или приличный вариант Euler. Оба себя вели.
  • Размер: 768×768 для соответствия кадрированию при тренировке.

Я также отрендерил тот же набор один раз без токена, чтобы увидеть, не слишком ли доминирующий стиль. Во втором прогоне кружки всё ещё выглядели «бумажными» без токена, намек на то, что я слишком жёстко толкнул стиль. Снижение веса LoRA до 0.6 это исправило.

Если сможете, держите облегчённую панель валидации открытой во время тренировки. Наблюдение за одними и теми же тремя промптами, обновляющимися, спокойнее, чем разглядывание случайных образцов.

Исправления

Вот что пошло не так и что это исправило.

Переобучение фонам

  • Симптом: идентичная текстура бумаги появляется в несвязанных сценах.
  • Исправление: уменьшите повторения на изображение (с 10 на 6), добавьте 6–10 нейтральных фонов, снизьте вес LoRA при выводе (0.6–0.75).

Цветовой дрейф к бежевому

  • Симптом: всё теплеет как фильтр позднего дня.
  • Исправление: удалите повторяющиеся прилагательные «тёплый/мягкий/уютный» в подписях; добавьте 6 изображений более холодных тонов; установите разнообразие баланса белого в датасете; добавьте «чрезмерно тёплые тона» в отрицательное.

Хрупкие промпты

  • Симптом: небольшие изменения промпта разрушают композицию.
  • Исправление: увеличьте разнообразие датасета в типах объектов и разметках; тренируйте с немного более низким LR (1e-4 вместо 2e-4); попробуйте ранг 32 если стиль сложный.

Публикация и переиспользование

Тренировка этой LoRA была управляемой во многом потому, что мы построили WaveSpeed, чтобы удалить скучные части процесса. Вместо того, чтобы писать скрипты или опекать GPU, я мог загрузить маленький датасет, запустить короткие тренировки Turbo LoRA, сравнить контрольные точки и переиспользовать модель в проектах без разрушения моего рабочего процесса.

Если вы устали от дрейфа стиля, переобучения или потери отслеживания «хорошего прогона».
→ Натренируйте Z-Image Turbo LoRA на WaveSpeed Когда третий прогон ощущался стабильным, я опубликовал LoRA внутри WaveSpeed с простой карточкой модели:

  • Для чего это: тонкий стиль текстуры бумаги, приглушённая палитра, чистые формы.
  • Для чего это не подходит: фотореалистичные портреты, глянцевые продукты, тяжёлые текстовые оверлеи.
  • Настройки, которые сработали: вес 0.6–0.85, CFG ~4.5, 20–26 шагов, вывод 768.
  • Два хороших промпта и одно предостережение.
  • Заметки версии: натренирована в январе 2026, ранг 16, LR 1e-4, ~224 шага.

Я держал лицензию простой и добавил три изображения валидации. Будущий я поблагодарит прошлого себя за конкретику.

Переиспользование

  • Складирование: я мог бы складировать эту стилевую LoRA с отдельной объектной LoRA, но я держал только один стиль за раз. Если вы должны складировать, держите комбинированный вес под 1.0.
  • Слияние: я не запёкал это в контрольную точку. Вся суть была в гибкости.
  • Команды: я поделился ссылкой LoRA и тремя фиксированными промптами валидации. Это сократило обратно-и-вперёд рецензирования. Люди смотрели на один и тот же рефренс.

Если вы новичок на WaveSpeed или с Z-Image Turbo, официальная документация стоит быстро пролистать перед вашим первым прогоном, особенно их заметки по скорости обучения и рангу. Я пролистал их после первого прохода и пожалел, что не сделал это раньше.

Вы также давали зарок, что вы «просто натренируете маленькую LoRA», только чтобы обнаружить два вечера спустя, что каждое изображение украшено «вечным бежевым фильтром» или «принудительным фоном текстурированной бумаги»?

Быстро, загрузите ваши 45 изображений в WaveSpeed и попробуйте Z-Image Turbo LoRA. Потом вернитесь и скажите мне: это спасло вашу консистентность заголовков, или это заставило все ваши объекты вырастить «загадочные текстурированные щупальца»?