LTX-2.3: Что нового в видеомодели Lightricks на 22 млрд параметров (2026)
LTX-2.3 обновился до 22 млрд параметров с новым VAE, улучшенным звуком, портретным форматом 9:16 и пространственно-временными апскейлерами. Вот что реально изменилось.
Всем привет, я Дора. На прошлой неделе меня подтолкнул к тестированию LTX‑2.3 один небольшой повод: 4-секундный клип, где молнии на куртке постоянно «растворялись» в ткани. Я не искала новую модель. Мне просто хотелось, чтобы молнии выглядели как молнии, не тратя на это час. Поэтому я выделила вечер и прогнала несколько тех же промптов и аудиоподсказок, которые использую со времён LTX‑2. Мои заметки ниже — это не обзор функций. Это места, где релиз действительно изменил мой рабочий процесс, и места, где этого не произошло.

LTX-2 vs LTX-2.3 с первого взгляда
Вот краткая сводка, которую я хотела бы иметь до начала работы. Делюсь тем, что наблюдала сама, и тем, что указано в примечаниях к релизу. Если что-то выглядит приблизительным — так и задумано.
| Параметры | ~10–14B (масштаб предыдущего поколения) | ~22B (по данным разработчика: расширенный контекст) |
|---|---|---|
| VAE | Стандартный VAE: мягкие микродетали | Новый VAE высокой чёткости: резкие мелкие края, чистые градиенты |
| Текстовый энкодер | Надёжное следование промптам: некоторая размытость мелких объектов | Обновлён с улучшенной привязкой мелких объектов и сохранением стиля |
| Аудио | Базовое аудиообусловливание: периодические фазовые артефакты | Переработанный аудиослой: чистое обусловливание, меньше артефактов |
| Базовое/Вывод | Стабильно на 720p: поддержка портретного режима через хаки | Нативный формат 9:16 (портрет): та же база, но улучшенные апскейлеры |
| Новое | / | Улучшения audio-to-video, пространственные и временны́е апскейлеры, опции 24/48 FPS |
Два быстрых вывода из этой таблицы: обновление VAE — тихий герой для визуальной составляющей, а аудиостек стал менее нестабильным. Прирост параметров помогает с согласованностью, но не исправляет магически логику раскадровки или точную типографику.
Новый VAE — что «более резкие мелкие детали» реально означают на выходе
В LTX‑2 я часто видела, как мелкие текстуры «дышат» между кадрами: зернистость ткани выглядела правильно на кадре 12 и размывалась к кадру 17. С новым VAE в LTX‑2.3 края и микротекстуры держатся лучше. Разница не бросается в глаза как неоновая вывеска: это скорее отсутствие мелких раздражителей.
На практике:
- Линии волос и ресницы слипаются медленнее при нарастании движения.
- Края хромированных поверхностей сохраняют чёткий блик, не расплываясь.
- Градиенты в небе и тенях дают меньше полосатости.
Поначалу это не сэкономило мне время — я всё равно делала привычные проходы по денойзу и сидам. Но после трёх итераций я перестала вручную рисовать маски для украшений и молний. Это «экономия времени» медленная и накопительная: примерно 6–8 минут на каждый 10-секундный клип.
Оговорка: при агрессивных контрастных промптах это может давать избыточную резкость. В таких случаях я снижала guidance примерно на 5–10%, чтобы избежать «хрустящих» кадров.

Где вы увидите разницу (лица, текстуры, мелкие объекты, хром)
Я держала тестовый набор компактным: три промпта, которые знаю наизусть, запущенные на одних и тех же сидах в период с 18 по 24 марта.
- Лица: Поры, тонкие волоски и уголки глаз лучше переживают движение. По умолчанию это ощущается меньше как «фильтр красоты». Я всё ещё иногда получала неестественную улыбку при слишком строгих ограничениях промпта, но восковых щёк в целом стало меньше.
- Текстуры: Деним, лён, шлифованная сталь. Они улучшились больше всего. Модель уважает структуру переплетения, не пульсируя. В LTX‑2 я иногда наблюдала «дрейф текстур» каждые ~8–10 кадров. Это в основном исчезло.
- Мелкие объекты: Стрелки часов, пуговицы, винты. Они дольше держат форму, прежде чем раствориться в окружении. Не идеально, но прыжков монтажа, когда винт превращается в пятно, стало меньше.
- Хром и блики: Пересветы цветут меньше. Я заметила более чёткие спады на отражающих ободах и кранах — это не даёт кадру выглядеть избыточно обработанным.
Где игла не сдвинулась: детальный печатный текст в кадре (этикетки, вывески) по-прежнему ненадёжен. Если чёткий читаемый текст критичен, я всё равно компоную его отдельно.
Переработанный аудиослой: более чистая генерация, меньше артефактов
Генерации с аудиообусловливанием стали более стабильными. В LTX‑2 при работе с ритмическими подсказками я слышала слабое фазирование или дрожание. В 2.3 это стало редкостью. Я тестировала клик 120 BPM с дроновым падом, а затем разговорный направляющий трек.
Что изменилось для меня:
- Движение, синхронизированное с битом, стало более согласованным без просадок экспозиции при «следовании» за кик-барабаном.
- Больше воздуха вокруг сибилянтов в закадровом тексте, меньше «болтовни», которая размывала кадры.
- Меньше слышимых артефактов, запечённых в экспорты. На старых рендерах я иногда слышала эхо обусловливания. В моих тестах это исчезло.
Ограничения: покадровая точность синхронизации движения и хита по-прежнему не достигнута. Если вам нужны точные маркеры бита, придётся подрезать в пост-обработке.

Для чего Audio-to-Video подходит (и не подходит)
Audio-to-video в версии 2.3 хорошо подходит для формирования энергетики и темпа. Для лип-синка или точной хореографии — не очень.
Где это мне помогло:
- Атмосферные ролики, где настроение следует за нарастанием музыки. Модель «дышит» с треком вместо того, чтобы гонять экспозицию.
- Продуктовые клипы с мягкими свушами — переходы ощущаются направленными, а не случайными.
Где не помогло:
- Лип-синк с монологом. Форма губ по-прежнему плывёт. Я бы не полагалась на это для говорящих голов.
- Точные ударные монтажи или танцевальные движения. Достаточно близко для атмосферы, но не для счёта.
Поэтому я использую это как каркасный слой: получаю ощущение движения из аудио, а затем фиксирую монтаж в полноценном NLE.
Портрет 9:16 и новые варианты частоты кадров (24 / 48 FPS)
Нативный формат 9:16 наконец убрал мою громоздкую цепочку кадрирования. Вертикальные композиции выглядят более осмысленными — это про кадрирование, а не просто обрезку. Я перезапустила кафе-последовательность, снятую в LTX‑2 (обрезанную из горизонтальной), и вертикальный проход в 2.3 дал мне более чёткую краевую дисциплину вокруг рук и чашек.
По частоте кадров:
- 24 fps: Движение ощущается кинематографично, но может стробить на быстрых панорамах. По-прежнему мой выбор по умолчанию для нарративной атмосферы.
- 48 fps: Более плавное движение без мыльного вида, которого я опасалась. Полезно для предметных развёрток и макродеталей, особенно в сочетании с новыми апскейлерами.
Небольшое неудобство: 48 fps вдвое увеличивает нагрузку на ревью. Я стала экспортировать короткие сегменты для проверки, иначе мелкие артефакты могут спрятаться между кадрами.

Пространственный и временны́й апскейлеры: как они работают вместе
Раньше я делала пространственный апскейлинг в отдельном инструменте и принимала временну́ю нестабильность как цену за это. Связанные апскейлеры LTX‑2.3 снижают этот компромисс.
Как я запускала:
- Генерация на удобной базе (около 720p), одобрение движения.
- Пространственный апскейлер для поднятия детализации.
- Временно́й апскейлер для стабилизации между кадрами.
Что заметила:
- Применение временно́го апскейлера последним позволяет избежать старой проблемы «красивые одиночные кадры, дёрганая последовательность».
- Пара убирает 1–2 прохода из моего пайплайна. Для большинства клипов я перестала ходить по кругу между внешними денойзерами.
- Случай неудачи: если базовое движение уже хаотично, временно́й апскейлинг может смазать микродвижения. Я исправляла это, немного снижая силу движения перед апскейлингом.
Это не магия, но самая «системно-дружественная» часть релиза для меня.
Масштаб 22B: что меняет (и не меняет) прирост параметров
Более крупные модели могут запоминать больше контекста и лучше обобщать. Здесь это проявилось как более стабильное сохранение объектов на протяжении 6–10 секунд и несколько лучшее следование промптам с несколькими условиями.
Изменения, которые я почувствовала:
- Меньше подмен объектов в середине последовательности (красная кружка остаётся красной дольше).
- Инструкции по стилю выполняются более надёжно.
Что это не исправляет:
- Сложная пространственная логика (например, «камера проходит за стулом, затем показывает зеркало, где видно…»). Здесь по-прежнему нужны тщательные промпты и иногда раскадровочный проход.
- Идеальный рендеринг текста в кадре. По-прежнему боль.
Издержки:
- Бо́льшие требования к VRAM и более длительная задержка первого токена. Мой локальный компьютер (24 ГБ VRAM) справлялся с короткими запусками при базовом разрешении: всё амбициозное требовало тайлинга или выгрузки.
- Немного более долгое прогревание. Не критично, но заметно при быстрых итерациях.
Кому стоит обратить на это внимание сейчас
- Разработчикам (инструменты, ноды, пользовательские воркфлоу): Новый VAE и апскейлеры стоит интегрировать. Они устраняют два распространённых тикета поддержки «почему оно дёргается?». Если вы поставляете пресеты, рассмотрите консервативные значения guidance по умолчанию, чтобы избежать избыточно резкого вида.
- Продуктовым командам: Согласованность аудио и поддержка 9:16 снижают трение при создании контента для соцсетей. Если ваши пользователи ориентированы на рилсы, 48 fps + временно́й апскейлинг — спокойное обновление. Не преувеличивайте возможности лип-синка — его ещё нет.
- Контент-мейкерам: Если вы боролись с дрейфом текстур или ненавидели рабочий процесс с обрезкой в вертикальный формат, 2.3 — это релиз для качества жизни. Если вы надеялись на идеальный текст или железную сюжетную логику, можете спокойно подождать.
Моя краткая математика: меньше масок для очистки, меньше внешних прыжков. Это не эффектно, но я принимаю.

FAQ
Каковы требования к VRAM для LTX-2.3 при локальном запуске?
Что я запускала: 24 ГБ справлялись с короткими генерациями при базовом разрешении (около 720p) с запасом для небольших батчей. Для 1080p или более длинных клипов мне требовались тайлинг и периодическая выгрузка на CPU. На 12–16 ГБ ожидайте более медленные запуски и жёсткие ограничения. Точные потребности будут зависеть от семплера, длины контекста и от того, включены ли оба апскейлера.
Если вы новичок в настройке памяти, заметки PyTorch об управлении памятью CUDA — полезное введение.
Совместим ли LTX-2.3 с существующими воркфлоу ComfyUI для LTX-2?
В основном да — по духу, но мне пришлось заменить ноды для нового VAE и скорректировать guidance. Мои старые графы ComfyUI для LTX‑2 загрузились, но пожаловались на несколько устаревших полей. Десять минут очистки нод всё исправили. Если вы работаете в Comfy, следите за загрузчиком модели и нодами VAE. Основной репозиторий ComfyUI здесь, если нужны ссылки: ComfyUI на GitHub.
Можно ли использовать LTX-2.3 в коммерческих целях?
Я не юрист. Я проверила лицензию в примечаниях к релизу, и она выглядела стандартной для коммерческого использования с обычными ограничениями (атрибуция/допустимое использование). Если ваш проект несёт риск — бренд-кампании, вещание — прочитайте лицензию строка за строкой и сохраните локальную копию.
Доступен ли API на момент запуска?
Я использовала локальные запуски и размещённый эндпоинт во время тестирования. Размещённый API был обозначен как доступный в примечаниях, с некоторыми квотами. Если вы полагаетесь на функции API (вебхуки, повторные попытки, длительные задачи), уточните это в официальной документации перед тем, как строить пайплайны.
Поддерживает ли LTX-2.3 тонкую настройку LoRA?
Я видела хуки LoRA, открытые примерно так же, как в LTX‑2, с примечанием о совместимости с обновлённым текстовым энкодером. На практике мои старые LoRA загрузились, но потребовали перенастройки (немного снизить силу, чтобы избежать артефактов переобучения). Если вы зависите от файн-тюнов, закладывайте время на повторную калибровку.
Я начала это из-за молнии. Заканчиваю с меньшим количеством проходов очистки и одним лишним хаком кадрирования. Не драматично, просто…легче. На этот раз мне достаточно.
Предыдущие статьи:
- Сравните Real-ESRGAN и Topaz, чтобы увидеть, какой апскейлер лучше справляется с мелкими деталями
- Узнайте, как использовать Real-ESRGAN для более чистых текстур и чёткого видео на выходе
- Изучите, как AI-апскейлеры видео улучшают качество 1080p перед финальным экспортом
- Посмотрите, как SeedVR2 сравнивается с Topaz по стабильности движения и восстановлению деталей
- Ознакомьтесь с практическими рабочими процессами использования онлайн-апскейлеров видео в продакшне
