Руководство по портретному видео LTX-2.3: рабочие процессы 9:16 для социальных сетей и мобильных устройств (2026)

Привет, я Дора!

Я давно ждала видеомодель, которая воспринимает портретный формат как полноценный, а не второстепенный. Большинство инструментов по-прежнему генерируют горизонтальное видео и предлагают обрезать его. LTX-2.3 меняет это — она генерирует вертикальное видео до 1080×1920, обученная на данных в портретной ориентации, а не обрезанных из горизонтального. Для социальных команд, работающих с TikTok и Reels, это различие важнее, чем кажется на первый взгляд.

Почему нативная поддержка портрета важна (в сравнении с обрезкой из горизонтального)

Что означает «обучение на портретных данных» для качества результата

Когда модель генерирует 16:9, а вы обрезаете до 9:16, она не компоновала кадр для вертикального просмотра. Объекты оказываются не по центру, небо заполняет нижнюю треть, а траектории движения выглядят неестественно на экране телефона.

LTX-2.3 доступна как в виде модели с открытым исходным кодом, так и через API LTX, причём поддержка портрета встроена в обучающий конвейер — не добавлена как надстройка. Модель видела вертикально-ориентированную композицию во время обучения, а это означает, что расположение объектов, дуги движения и движение камеры откалиброваны для просмотра в высоком кадре.

Поддержка портрета 9:16 обеспечивает значительно улучшенное качество для вертикальных портретных видео, идеальных для социальных сетей и мобильных устройств. Это не маркетинговые слова — это структурное различие в том, как веса модели обрабатывают пространственные соотношения, специфичные для соотношения сторон.

Настройки разрешения и частоты кадров для 9:16

Конфигурация 1080×1920 в ComfyUI и через API

Практический стандарт — 720p (736×1280) для 9:16. Если у вас мощный GPU, например RTX 5090 или лучше, попробуйте 1088×1920 для полного качества 1080p.

В ComfyUI с официальными нодами LTXVideo установите в ноде разрешения 768×1280 для хорошего баланса VRAM/качество на карте с 24 ГБ. Для пользователей API документация LTX API принимает aspect_ratio: "9:16" вместе с параметром разрешения — ручная математика размеров обязательна.

Через API (минимальная конфигурация):

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

24 или 48 FPS для социальных платформ: что выбрать

LTX-2.3 представила 24/48 FPS как новые варианты частоты кадров наряду с существующими 25/50 FPS.

Для социальных сетей: используйте 24fps для большинства контента. TikTok и Reels перекодируют при загрузке, и 24fps даёт вам максимальный запас без раздувания размера файла. Снимайте один раз в 48fps и понижайте позже при необходимости — это даёт максимальную гибкость при постобработке. Сохраняйте 48fps для контента, где плавность движения является преимуществом (танцы, презентации продуктов, имитация замедленной съёмки).

Промпты для вертикальной композиции

Язык вертикального кадрирования

Модель реагирует на язык кадрирования. Для портретного вывода начинайте с ориентационных подсказок перед описанием объекта:

✅ vertical frame, close-up portrait, subject centered in upper half...
✅ phone-screen composition, full-body vertical shot, negative space below...
❌ wide establishing shot, panoramic landscape... (тянет к горизонтальной композиции)

Расположение объектов и избегание результатов с горизонтальным смещением

Даже при нативном портретном обучении модель может смещаться к горизонтальным композициям при использовании языка широкой сцены. Если ваш объект постоянно смещается к центру-широко вместо верха-вертикально: добавьте явные вертикальные якоря, такие как tall frame, vertical negative space или portrait orientation, face in upper third.

Для контента с говорящей головой или аватаром реализация LTX-2.3 от WaveSpeed отмечает, что портретные клипы работают лучше всего, когда вы описываете движение относительно вертикальной оси — наклоны камеры, вертикальные панорамы и восходящие съёмки — всё это усиливает высокий кадр.

Аудио в портретных рабочих процессах: что включать, а что пропускать

Когда нативное аудио добавляет ценность для социальных сетей (фоновые звуки, контент со звуком)

Звуковые эффекты, фоновые шумы и диалоги синхронизируются с генерацией — специальная конечная точка audio-to-video позволяет предоставить аудиоклип и сгенерировать соответствующие визуальные материалы.

Используйте нативное аудио, когда: ваш контент звуковой (атмосферные сцены, природные клипы, энергия толпы). Улучшения аудио в LTX-2.3 делают атмосферный звук действительно пригодным без постобработки — меньше артефактов, более чистые диалоги.

Когда пропустить аудио и добавить при постобработке

Пропустите нативное аудио для контента с закадровым голосом, музыкальной синхронизацией, фирменным звуком или чем-либо, требующим точного аудиомонтажа. Генерируйте только видео, затем добавляйте аудио в вашем NLE. Вариант Pro необходим для конечных точек audio-to-video, retake и extend — если вы генерируете только видео для музыкального трека, который добавляете при постобработке, вариант Fast экономит стоимость и время.

Рабочий процесс пакетного производства для социальных команд

Конвейер от раскадровки до клипа для высокообъёмного вывода

Для команд, генерирующих 20+ клипов в день, практический конвейер таков:

Сценарий → раскадровка с портретно-специфическими заметками по кадрированию для каждого кадра
Пакетные промпты через LTX API — API не имеет состояния, поэтому параллельные запросы выполняются независимо
Проверка качества — отмечайте смещения объектов или результаты с горизонтальным смещением для регенерации
Аудиослой при постобработке, если ведущая роль у музыки

Использование варианта Fast для черновиков, Pro для финальных версий

Начинайте с Fast для быстрого исследования композиций, затем переключайтесь на Pro для финального рендеринга. Fast оптимизирован для скорости и низкой стоимости — лучше всего для быстрого прототипирования, мозговых штурмов, раскадровки и быстрых итераций. Pro обеспечивает более высокую точность с лучшей стабильностью движения и визуальными деталями.

Типичная схема пакетных затрат: запустите 10 черновиков Fast для фиксации композиции и тайминга, затем один рендеринг Pro для доставки. Это снижает стоимость итерации примерно на 60% по сравнению с постоянным использованием Pro.

Extend-Video для более длинных последовательностей без регенерации

Конечная точка v1/extend расширяет продолжительность видео путём генерации дополнительных кадров. Для портретных последовательностей длиннее 8–10 секунд расширяйте вместо регенерации — это сохраняет согласованность объекта на протяжении расширенного клипа. Установите контекстное окно в 2–3 секунды от конца клипа для наиболее плавного перехода.

Ограничения и распространённые ошибки

Смещение объекта в длинных вертикальных клипах

После 12–15 секунд портретные клипы могут показывать смещение объекта — модель постепенно смещает положение объекта к центру кадра. Решение: используйте Extend-Video в более коротких сегментах (8с + 8с) вместо одной 16-секундной генерации.

Когда обрезанный горизонтальный формат всё же превосходит нативный портрет

Нативный портрет не всегда является правильным выбором. Для широкоугольного экшн-контента (спорт, сцены с толпой, съёмки транспортных средств) горизонтальная генерация с последующей умной обрезкой по-прежнему даёт лучшую горизонтальную композицию и естественное движение. Модель лучше всего работает при широкоэкранных соотношениях сторон, таких как 16:9 или 21:9 — портретные форматы могут давать искажённые результаты для некоторых типов контента. Тестируйте оба подхода перед тем, как использовать портрет для каждого типа контента.

Репозиторий ComfyUI-LTXVideo на GitHub включает эталонные рабочие процессы для обоих путей — полезно для сравнения бок о бок без перестройки нодов с нуля.

Часто задаваемые вопросы

В1: Какое максимальное разрешение для портретного вывода LTX-2.3?

LTX-2.3 поддерживает генерацию текст-в-видео, изображение-в-видео и аудио-в-видео до 1080p, включая нативное портретное (9:16) видео. На практике 1080×1920 является потолком для портретов. Для большинства рабочих процессов в социальных сетях 720p (736×1280) является практическим стандартом — это быстрее, дешевле, и платформы всё равно перекодируют.

В2: Требуются ли для портретного режима другие LoRA, чем для горизонтального?

Нет. LTX-2.3 поддерживает тонкую настройку LoRA, позволяя настраивать модель под конкретные стили, персонажи или варианты использования. LoRA, обученные на горизонтальных данных, как правило, переносятся на портретную генерацию — поведение кадрирования контролируется вашим промптом и настройками разрешения, а не самими весами LoRA. Тем не менее LoRA, обученные на портретно-специфических данных, будут давать более согласованные вертикальные композиции.

В3: Как качество портрета LTX-2.3 сравнивается с Kling для социального контента?

Прямые сравнительные тесты варьируются в зависимости от типа контента. Преимущество LTX-2.3 — открытые веса, доступ к API и нативное портретное обучение — Kling остаётся только облачным с меньшей прозрачностью в отношении обучающих данных. Для атмосферного и сценарно-ориентированного портретного контента LTX-2.3 конкурентоспособна на уровне 1080p. Для высокостилизованных человеческих объектов закрытая модель Kling всё ещё имеет преимущество в некоторых категориях. Тестируйте на своём конкретном типе контента перед принятием решения.

В4: Можно ли пакетно генерировать портретные клипы через API?

Да. LTX API разработан для реальных рабочих нагрузок с предсказуемой производительностью при любом объёме — стабильные результаты, согласованная точность и надёжность уровня инфраструктуры. Портретные и горизонтальные запросы используют одну и ту же конечную точку. Добавьте aspect_ratio: "9:16" в тело запроса. См. журнал изменений LTX API для актуальных спецификаций параметров.

В5: Поддерживает ли настольное приложение LTX генерацию портрета?

LTX Desktop — это полноценный видеоредактор, построенный на движке LTX-2.3, работающий локально на вашем оборудовании с открытыми весами и без облачной зависимости. Генерация портрета поддерживается — установите разрешение в соотношении 9:16 в настройках вывода. Обратите внимание, что платформа fal.ai LTX-2.3 предлагает бессерверную альтернативу, если локальная VRAM является ограничением для портретных рендеров 1080p.

Заключение

Нативная поддержка портрета в LTX-2.3 — это подлинное изменение на уровне обучения, а не обходное решение через обрезку. Для социальных команд это означает лучшее расположение объектов, более естественное движение и меньше исправлений композиции на этапе вывода.

Практические правила просты: 720p для большинства поставок, Fast для черновиков и Pro для финальных версий, Extend для всего, что превышает 12 секунд. Для широкоугольного экшн-контента горизонтальный формат с последующей обрезкой по-прежнему выигрывает — используйте правильный инструмент для кадра.

Конвейер, который вы создадите сейчас, будет работать в дальнейшем. Отладьте рабочий процесс, и улучшения качества последуют сами собой.

Предыдущие публикации: