WAN 2.2 LoRA Training Settings: Лучшая скорость обучения, количество шагов и слова-триггеры

WAN 2.2 LoRA Training Settings: Лучшая скорость обучения, количество шагов и слова-триггеры

Привет, друзья. Знаете? Мне нравилось, как WAN 2.2 работает с кожей и освещением, но мои обычные привычки обучения LoRA не переносились чистым способом. Лица получались слишком блестящими, а модель постоянно втягивала фоны в один и тот же мягкий студийный вид. Это было не “неправильно”, просто не мой стиль. Поэтому в начале января 2026 года я провел несколько коротких экспериментов, чтобы найти специфичные для WAN 2.2 настройки обучения LoRA, которые казались разумными. Ничего блестящего. Просто достаточно, чтобы снизить пластиковый блеск, удержать объект неподвижным и при этом позволить базовой модели дышать.

Если вы ищете быстрый шаблон: это не то. Я делюсь тем, что выдержало несколько прогонов, где я колебался и как я корректировал. Целевое ключевое слово здесь ясно — настройки обучения LoRA для WAN 2.2, но цель — более спокойная работа, а не новая кроличья нора.

Почему WAN LoRA отличается

Я заметил, что WAN 2.2 ведет себя как очень категоричный контрольный пункт SDXL: он настроен на четкие портреты, плавные градиенты и кинематографическое освещение. Когда я обучал LoRA так, как я обычно делаю на более простых базах SDXL, WAN постоянно возвращал мои результаты обратно к этому отполированному студийному виду.

Полевые заметки:

  • Гравитация промпта сильная. Даже низкие веса (0,4–0,6) тянут к чистой коже и симметричному кадрированию.
  • Кластеризация цвета проявляется рано. Если ваш датасет наклоняется в теплую сторону, WAN это усиливает.
  • Фоны становятся однородными. Без подстройек он по умолчанию выбирает неглубокую глубину резкости и мягкий боке, независимо от того, что вы ему дали.

Что изменилось на практике: я снизил скорости обучения, использовал больше изображений регуляризации, чем обычно, и намеренно сохранял подписи скучными. WAN 2.2 вознаграждает сдержанность. Когда я пытался одновременно “учить” стиль и объект, переобучение появлялось быстро.

Если вы переходите с привычек LoRA SD 1.5, думайте так: меньше умных трюков, больше контролируемых базовых линий. Если вы привыкли к SDXL, идите немного медленнее, чем обычно, и встраивайте регуляризацию раньше.

Руководство по размеру датасета

Я провел четыре прохода с тщательно подобранными наборами портретов (5–12 января 2026 г.), каждый с аккуратными подписями и смешанным освещением. Вот что выдержало:

  • 8–12 изображений: достаточно, чтобы зафиксировать конкретного человека или силуэт продукта. Используйте сильную регуляризацию. Сохраняйте композиции разнообразными.
  • 15–30 изображений: идеальный диапазон для идентификации одного объекта с мягким стилем. Добавьте 20–40% непортретных снимков, если хотите, чтобы фоны обобщались.
  • 40–80 изображений: полезно, когда вы кодируете согласованный фирменный стиль или многоугольный набор объектов. Вам понадобятся тщательные подписи и больше шагов.

Вещи, которые имели большее значение, чем сырое количество:

  • Разнообразие поз над разнообразием локаций. WAN хорошо обобщает локации: ему трудно, когда каждый снимок под одним и тем же углом.
  • Баланс экспозиции. Если половина вашего набора недоэкспонирована, WAN позже затемнит все. Я стандартизировал гистограммы перед обучением.
  • Простота подписей. Описательные, не поэтические. “subject_token, джинсовая куртка, свет из окна, среднее крупное изображение” лучше, чем “задумчивый портрет-кандид рядом с дождливым окном”.

Для LoRA идентичности я остановился на 12–20 изображениях как на надежной основе. Для LoRA стиля 30–50 дали мне место для маневра без коллапса к стандартному портретному блеску WAN.

Базовый уровень LR/шагов

Настройки обучения LoRA WAN 2.2, которые казались мне стабильными (Kohya-ss и база SDXL):

  • Ранг (dim): 16–32. Я по умолчанию выбираю 16 для идентичности, 32 для стиля.
  • Alpha: соответствовать dim (например, 16/16). Более низкая alpha делала результаты хрупкими.
  • Оптимизатор: AdamW с weight_decay 0,01.
  • Скорость обучения: 5e-5 для идентичности, 7e-5 до 1e-4 для стиля. WAN наказывает высокий LR пластиковой кожей и скачками потерь.
  • Планировщик: косинус с разминкой. Разминка 5% от общего количества шагов.
  • Размер пакета: 2–4 (A100/4090). Накопление градиента для моделирования 8, если необходимо.
  • Разрешение: собственное для SDXL 1024 с длинной стороной с разбиением по размерам (например, 1024×768, 1024×1024). Не увеличивайте размер: это только запоминает шум.
  • Эпохи/шаги: я останавливаюсь по шагам, а не по эпохам.
    • 12–20 изображений: 1 200–2 000 шагов
    • 30–50 изображений: 2 000–3 500 шагов
    • 60–80 изображений: 3 500–5 000 шагов

Проверки здравого смысла, которые я использовал:

  • Сохраняйте каждые 200–400 шагов и просматривайте с фиксированным промптом + seed.
  • Если образцы затачиваются слишком быстро до шага 600, LR высокий.
  • Если идентичность не фиксируется примерно к шагу 1400 на наборе из 20 изображений, подписи или регуляризация отключены больше, чем LR.

Эти цифры не выиграют рейтинговую доску, но они противостоят тенденции WAN закруглять все.

Стратегия триггерного слова

Я сохранил триггеры минимальными. WAN уже имеет сильный приоритет: складирование милых токенов просто добавляет шум.

Вот что я делал:

  • Один токен экземпляра + один токен класса. Пример: “sora_person” как экземпляр, “person” или “woman/man” как класс в подписях.
  • Поместите токен экземпляра в начало каждой подписи. Сохраняйте его в нижнем регистре, одно слово, если возможно.
  • Избегайте токенов стиля в одном LoRA, если вы не хотите специально LoRA стиля. Смешивание идентичности и стиля в WAN 2.2 становилось мутным быстро.

В промптах я только вызываю LoRA и токен экземпляра, затем добавляю мягкое управление:

  • lora: имя при 0,5–0,8
  • токен экземпляра в начале промпта
  • слова стиля в конце и легко (“естественный свет, чистый цвет, минимальная ретушь”)

Я из любопытства попробовал придуманные триггеры “WAN-style”. Они не помогли. База уже делает эту часть, LoRA должна вырезать то, что вам нужно, а не переобъявлять то, в чем WAN 2.2 хорош.

Изображения регуляризации

Это был тихий герой. Я использовал 1–3x изображения регуляризации на изображение обучения, сопоставленные классом с подписями.

  • Для LoRA идентичности: 20–60 изображений рег, помеченные как один класс (“person”). Я генерировал их из самого WAN 2.2 с простыми промптами: “фото человека, нейтральный фон, среднее крупное изображение, естественный свет”.
  • Для LoRA объектов: изображения рег для класса продукта (“shoe,” “bottle,” “chair”). Сохраняйте их точными: не смешивайте классы.

Почему это имело значение: WAN 2.2 любит отпечатывать свою портретную эстетику на всем. Изображения рег позволили ей сохранить диапазон базовой модели, позволяя LoRA удержать идентичность. Без них мои LoRA над-подчеркивали сглаживание кожи и боке, а затем отказывались уходить. Настройки, которые казались правильными:

  • Сохраняйте изображения рег визуально неприметными и хорошо экспонированными.
  • Не подписывайте изображения рег с токенами экземпляров: только класс.
  • Смешивайте 10–20% обучающих партий с изображениями рег на протяжении (а не только в начале).

Если у вас не хватает времени, добавьте изображения рег перед тем, как настраивать оптимизатор. Это больший рычаг здесь.

Обнаружение переобучения

Я не полагался только на потери. WAN скрывает переобучение за красивыми образцами. Это были мои сигналы:

  • Инертность промпта: изменение промпта едва ли меняет результат. Все дрейфует обратно к одному и тому же объективу и фону.
  • Пластичность кожи: поры исчезают равномерно, особенно вокруг щек и лба, даже с шероховатыми световыми промптами.
  • Повторение позы: повторяющиеся углы плеч/шеи по разным семенам.
  • Фиксация цвета: теплый оттенок, который цепляется при различных подсказках баланса белого.

Быстрые проверки, которые я проводил каждые 200–400 шагов:

  • Противоречивый промпт: переключитесь на “жесткий верхний офисный свет, люминесцентный, неблагоприятный” и посмотрите, возвращается ли текстура.
  • Переворот фона: заставьте “оживленную улицу, загромождение полок” проверить гибкость композиции.
  • Давление отрицательного промпта: добавьте “слишком гладкая кожа, пластиковая текстура, тяжелая ретушь” и посмотрите, слушает ли она.

Если два из этих тестов подряд не прошли, я вернулся к предыдущему контрольному пункту и либо добавил еще 10–20 изображений рег, либо снизил LR на один уровень.

Исправление коллапсов

Я столкнулся с двумя видами коллапса: плавлением идентичности и фиксацией стиля.

Когда идентичность плавилась (лица дрейфовали, глаза не совпадали):

  • Снизьте LR на один уровень (например, 7e-5 → 5e-5).
  • Увеличьте ранг с 16 на 32 только если датасет имеет достаточно углов: в противном случае он запоминает позы, а не идентичность.
  • Затяните подписи: сократите прилагательные, сохраняйте намеки на фокусное расстояние, сохраняйте токен экземпляра первым.
  • Добавьте 10–20 дополнительных изображений рег одного класса.

Когда стиль зафиксировался (все выглядело как портретный студийный вид WAN по умолчанию):

  • Добавьте непортретные снимки в датасет (окружающая среда, руки, частичное тело).
  • Увеличьте шаги на 400–800 с косинусным расписанием: не поднимайте LR резко.
  • Снизьте вес LoRA при вывести (0,8 → 0,5) и уменьшите руководство (CFG 5–6 → 3,5–4,5). WAN хорошо реагирует на более низкий CFG.
  • Если используете смещение шума или сильное увеличение цвета, уменьшите их. WAN уже стабилизирует цвет: дополнительное увеличение сделало мои результаты мутными.

Другие ручки, которые помогли:

  • Отсечение градиента в 1,0, чтобы избежать внезапных скачков.
  • EMA выключена для небольших прогонов: с крошечными датасетами EMA отставала от идентичности по сравнению с предпросмотрами.
  • Дисциплина seed: просмотрите с фиксированным seed каждый раз. Небольшие изменения легче судить, когда все остальное неподвижно.

Экспорт и повторное использование

Несколько привычек сэкономили мне время позже:

  • Сохраняйте добавочные контрольные пункты с четкими названиями: модель, ранг, LR, шаги и дата. Пример: wan22_lora_id_r16_lr5e-5_s1800_2026-01-09.safetensors.
  • Сохраняйте промпт обучения, промпт валидации и seed в метаданных LoRA, если ваш инструмент это поддерживает. Будущее я всегда благодарит прошлое я.
  • Использование, привязанное к версии: LoRA, обученные на WAN 2.2, работали лучше всего на WAN 2.2 и близких соседях. Они были полезны на других базах SDXL, но обработка цвета и кожи сместилась. Я рассматриваю их как “WAN-первые”.
  • Стандартные значения вывода, которые казались хорошими:
    • Вес LoRA 0,5–0,8 (идентичность), 0,3–0,6 (наложение стиля)
    • CFG 3,5–5,5
    • 30–40 шагов со стабильным сэмплером (DPM++ 2M Karras работал хорошо)
    • Сохраняйте промты короткими: WAN слышит тонкие подсказки

Если вы хотите объединить LoRA: я имел больший успех с складированием небольших, однопарпурусных LoRA (идентичность на 0,6 + мягкий цветной вид на 0,3), чем обучение одного большого “всего” LoRA. WAN уважает модульность.

Для более подробных рабочих процессов и примеров WAN 2.2, посетите официальную документацию ComfyUI. Для обучения я по-прежнему предпочитаю запускать все локально, где я могу видеть каждую ручку. Но когда дело доходит до вывода, маршрутизации модели или переключения между базовыми моделями без жонглирования API, вы можете попробовать наш WaveSpeed. Он держит разные модели за одной согласованной конечной точкой, чтобы я мог сосредоточиться на промптах и выходах вместо инфраструктуры.