LTX-2.3: Что нового в видеомодели Lightricks на 22 млрд параметров (2026)

Всем привет, я Дора. На прошлой неделе меня подтолкнул к тестированию LTX‑2.3 один небольшой повод: 4-секундный клип, где молнии на куртке постоянно «растворялись» в ткани. Я не искала новую модель. Мне просто хотелось, чтобы молнии выглядели как молнии, не тратя на это час. Поэтому я выделила вечер и прогнала несколько тех же промптов и аудиоподсказок, которые использую со времён LTX‑2. Мои заметки ниже — это не обзор функций. Это места, где релиз действительно изменил мой рабочий процесс, и места, где этого не произошло.

LTX-2 vs LTX-2.3 с первого взгляда

Вот краткая сводка, которую я хотела бы иметь до начала работы. Делюсь тем, что наблюдала сама, и тем, что указано в примечаниях к релизу. Если что-то выглядит приблизительным — так и задумано.

Параметры	~10–14B (масштаб предыдущего поколения)	~22B (по данным разработчика: расширенный контекст)
VAE	Стандартный VAE: мягкие микродетали	Новый VAE высокой чёткости: резкие мелкие края, чистые градиенты
Текстовый энкодер	Надёжное следование промптам: некоторая размытость мелких объектов	Обновлён с улучшенной привязкой мелких объектов и сохранением стиля
Аудио	Базовое аудиообусловливание: периодические фазовые артефакты	Переработанный аудиослой: чистое обусловливание, меньше артефактов
Базовое/Вывод	Стабильно на 720p: поддержка портретного режима через хаки	Нативный формат 9:16 (портрет): та же база, но улучшенные апскейлеры
Новое	/	Улучшения audio-to-video, пространственные и временны́е апскейлеры, опции 24/48 FPS

Два быстрых вывода из этой таблицы: обновление VAE — тихий герой для визуальной составляющей, а аудиостек стал менее нестабильным. Прирост параметров помогает с согласованностью, но не исправляет магически логику раскадровки или точную типографику.

Новый VAE — что «более резкие мелкие детали» реально означают на выходе

В LTX‑2 я часто видела, как мелкие текстуры «дышат» между кадрами: зернистость ткани выглядела правильно на кадре 12 и размывалась к кадру 17. С новым VAE в LTX‑2.3 края и микротекстуры держатся лучше. Разница не бросается в глаза как неоновая вывеска: это скорее отсутствие мелких раздражителей.

На практике:

Линии волос и ресницы слипаются медленнее при нарастании движения.
Края хромированных поверхностей сохраняют чёткий блик, не расплываясь.
Градиенты в небе и тенях дают меньше полосатости.

Поначалу это не сэкономило мне время — я всё равно делала привычные проходы по денойзу и сидам. Но после трёх итераций я перестала вручную рисовать маски для украшений и молний. Это «экономия времени» медленная и накопительная: примерно 6–8 минут на каждый 10-секундный клип.

Оговорка: при агрессивных контрастных промптах это может давать избыточную резкость. В таких случаях я снижала guidance примерно на 5–10%, чтобы избежать «хрустящих» кадров.

Где вы увидите разницу (лица, текстуры, мелкие объекты, хром)

Я держала тестовый набор компактным: три промпта, которые знаю наизусть, запущенные на одних и тех же сидах в период с 18 по 24 марта.

Лица: Поры, тонкие волоски и уголки глаз лучше переживают движение. По умолчанию это ощущается меньше как «фильтр красоты». Я всё ещё иногда получала неестественную улыбку при слишком строгих ограничениях промпта, но восковых щёк в целом стало меньше.
Текстуры: Деним, лён, шлифованная сталь. Они улучшились больше всего. Модель уважает структуру переплетения, не пульсируя. В LTX‑2 я иногда наблюдала «дрейф текстур» каждые ~8–10 кадров. Это в основном исчезло.
Мелкие объекты: Стрелки часов, пуговицы, винты. Они дольше держат форму, прежде чем раствориться в окружении. Не идеально, но прыжков монтажа, когда винт превращается в пятно, стало меньше.
Хром и блики: Пересветы цветут меньше. Я заметила более чёткие спады на отражающих ободах и кранах — это не даёт кадру выглядеть избыточно обработанным.

Где игла не сдвинулась: детальный печатный текст в кадре (этикетки, вывески) по-прежнему ненадёжен. Если чёткий читаемый текст критичен, я всё равно компоную его отдельно.

Переработанный аудиослой: более чистая генерация, меньше артефактов

Генерации с аудиообусловливанием стали более стабильными. В LTX‑2 при работе с ритмическими подсказками я слышала слабое фазирование или дрожание. В 2.3 это стало редкостью. Я тестировала клик 120 BPM с дроновым падом, а затем разговорный направляющий трек.

Что изменилось для меня:

Движение, синхронизированное с битом, стало более согласованным без просадок экспозиции при «следовании» за кик-барабаном.
Больше воздуха вокруг сибилянтов в закадровом тексте, меньше «болтовни», которая размывала кадры.
Меньше слышимых артефактов, запечённых в экспорты. На старых рендерах я иногда слышала эхо обусловливания. В моих тестах это исчезло.

Ограничения: покадровая точность синхронизации движения и хита по-прежнему не достигнута. Если вам нужны точные маркеры бита, придётся подрезать в пост-обработке.

Для чего Audio-to-Video подходит (и не подходит)

Audio-to-video в версии 2.3 хорошо подходит для формирования энергетики и темпа. Для лип-синка или точной хореографии — не очень.

Где это мне помогло:

Атмосферные ролики, где настроение следует за нарастанием музыки. Модель «дышит» с треком вместо того, чтобы гонять экспозицию.
Продуктовые клипы с мягкими свушами — переходы ощущаются направленными, а не случайными.

Где не помогло:

Лип-синк с монологом. Форма губ по-прежнему плывёт. Я бы не полагалась на это для говорящих голов.
Точные ударные монтажи или танцевальные движения. Достаточно близко для атмосферы, но не для счёта.

Поэтому я использую это как каркасный слой: получаю ощущение движения из аудио, а затем фиксирую монтаж в полноценном NLE.

Портрет 9:16 и новые варианты частоты кадров (24 / 48 FPS)

Нативный формат 9:16 наконец убрал мою громоздкую цепочку кадрирования. Вертикальные композиции выглядят более осмысленными — это про кадрирование, а не просто обрезку. Я перезапустила кафе-последовательность, снятую в LTX‑2 (обрезанную из горизонтальной), и вертикальный проход в 2.3 дал мне более чёткую краевую дисциплину вокруг рук и чашек.

По частоте кадров:

24 fps: Движение ощущается кинематографично, но может стробить на быстрых панорамах. По-прежнему мой выбор по умолчанию для нарративной атмосферы.
48 fps: Более плавное движение без мыльного вида, которого я опасалась. Полезно для предметных развёрток и макродеталей, особенно в сочетании с новыми апскейлерами.

Небольшое неудобство: 48 fps вдвое увеличивает нагрузку на ревью. Я стала экспортировать короткие сегменты для проверки, иначе мелкие артефакты могут спрятаться между кадрами.

Пространственный и временны́й апскейлеры: как они работают вместе

Раньше я делала пространственный апскейлинг в отдельном инструменте и принимала временну́ю нестабильность как цену за это. Связанные апскейлеры LTX‑2.3 снижают этот компромисс.

Как я запускала:

Генерация на удобной базе (около 720p), одобрение движения.
Пространственный апскейлер для поднятия детализации.
Временно́й апскейлер для стабилизации между кадрами.

Что заметила:

Применение временно́го апскейлера последним позволяет избежать старой проблемы «красивые одиночные кадры, дёрганая последовательность».
Пара убирает 1–2 прохода из моего пайплайна. Для большинства клипов я перестала ходить по кругу между внешними денойзерами.
Случай неудачи: если базовое движение уже хаотично, временно́й апскейлинг может смазать микродвижения. Я исправляла это, немного снижая силу движения перед апскейлингом.

Это не магия, но самая «системно-дружественная» часть релиза для меня.

Масштаб 22B: что меняет (и не меняет) прирост параметров

Более крупные модели могут запоминать больше контекста и лучше обобщать. Здесь это проявилось как более стабильное сохранение объектов на протяжении 6–10 секунд и несколько лучшее следование промптам с несколькими условиями.

Изменения, которые я почувствовала:

Меньше подмен объектов в середине последовательности (красная кружка остаётся красной дольше).
Инструкции по стилю выполняются более надёжно.

Что это не исправляет:

Сложная пространственная логика (например, «камера проходит за стулом, затем показывает зеркало, где видно…»). Здесь по-прежнему нужны тщательные промпты и иногда раскадровочный проход.
Идеальный рендеринг текста в кадре. По-прежнему боль.

Издержки:

Бо́льшие требования к VRAM и более длительная задержка первого токена. Мой локальный компьютер (24 ГБ VRAM) справлялся с короткими запусками при базовом разрешении: всё амбициозное требовало тайлинга или выгрузки.
Немного более долгое прогревание. Не критично, но заметно при быстрых итерациях.

Кому стоит обратить на это внимание сейчас

Разработчикам (инструменты, ноды, пользовательские воркфлоу): Новый VAE и апскейлеры стоит интегрировать. Они устраняют два распространённых тикета поддержки «почему оно дёргается?». Если вы поставляете пресеты, рассмотрите консервативные значения guidance по умолчанию, чтобы избежать избыточно резкого вида.
Продуктовым командам: Согласованность аудио и поддержка 9:16 снижают трение при создании контента для соцсетей. Если ваши пользователи ориентированы на рилсы, 48 fps + временно́й апскейлинг — спокойное обновление. Не преувеличивайте возможности лип-синка — его ещё нет.
Контент-мейкерам: Если вы боролись с дрейфом текстур или ненавидели рабочий процесс с обрезкой в вертикальный формат, 2.3 — это релиз для качества жизни. Если вы надеялись на идеальный текст или железную сюжетную логику, можете спокойно подождать.

Моя краткая математика: меньше масок для очистки, меньше внешних прыжков. Это не эффектно, но я принимаю.

FAQ

Каковы требования к VRAM для LTX-2.3 при локальном запуске?

Что я запускала: 24 ГБ справлялись с короткими генерациями при базовом разрешении (около 720p) с запасом для небольших батчей. Для 1080p или более длинных клипов мне требовались тайлинг и периодическая выгрузка на CPU. На 12–16 ГБ ожидайте более медленные запуски и жёсткие ограничения. Точные потребности будут зависеть от семплера, длины контекста и от того, включены ли оба апскейлера.

Если вы новичок в настройке памяти, заметки PyTorch об управлении памятью CUDA — полезное введение.

Совместим ли LTX-2.3 с существующими воркфлоу ComfyUI для LTX-2?

В основном да — по духу, но мне пришлось заменить ноды для нового VAE и скорректировать guidance. Мои старые графы ComfyUI для LTX‑2 загрузились, но пожаловались на несколько устаревших полей. Десять минут очистки нод всё исправили. Если вы работаете в Comfy, следите за загрузчиком модели и нодами VAE. Основной репозиторий ComfyUI здесь, если нужны ссылки: ComfyUI на GitHub.

Можно ли использовать LTX-2.3 в коммерческих целях?

Я не юрист. Я проверила лицензию в примечаниях к релизу, и она выглядела стандартной для коммерческого использования с обычными ограничениями (атрибуция/допустимое использование). Если ваш проект несёт риск — бренд-кампании, вещание — прочитайте лицензию строка за строкой и сохраните локальную копию.

Доступен ли API на момент запуска?

Я использовала локальные запуски и размещённый эндпоинт во время тестирования. Размещённый API был обозначен как доступный в примечаниях, с некоторыми квотами. Если вы полагаетесь на функции API (вебхуки, повторные попытки, длительные задачи), уточните это в официальной документации перед тем, как строить пайплайны.

Поддерживает ли LTX-2.3 тонкую настройку LoRA?

Я видела хуки LoRA, открытые примерно так же, как в LTX‑2, с примечанием о совместимости с обновлённым текстовым энкодером. На практике мои старые LoRA загрузились, но потребовали перенастройки (немного снизить силу, чтобы избежать артефактов переобучения). Если вы зависите от файн-тюнов, закладывайте время на повторную калибровку.

Я начала это из-за молнии. Заканчиваю с меньшим количеством проходов очистки и одним лишним хаком кадрирования. Не драматично, просто…легче. На этот раз мне достаточно.