Представляем LTX-2 19B ControlNet: преобразование видео с точным контролем через позу, глубину и контуры

Пейзаж генерации видео с искусственным интеллектом достиг нового рубежа. LTX-2 19B ControlNet приносит возможность структурного руководства в трансформацию видео, позволяя создателям переформатировать видеоконтент, сохраняя при этом движение и динамику, которые делают видеозапись привлекательной. Построенный на революционной архитектуре Diffusion Transformer компании Lightricks с параметром в 19 миллиардов, этот модель представляет значительный прогресс в управляемой генерации видео.

Что такое LTX-2 19B ControlNet?

LTX-2 19B ControlNet — это модель преобразования видео в видео, которая использует детектирование позы, глубины или краев Canny для направления генерации нового видеоконтента, сохраняя при этом структуру движения из вашего входного видео. Модель работает на том же мощном основании, что и семейство LTX-2 — асимметричный двухпоточный диффузионный трансформатор с 48 слоями, который одновременно обрабатывает токены видео и аудио.

То, что выделяет эту модель, — это её способность генерировать синхронизированный аудиовизуальный контент длиной до 20 секунд. Архитектура стратегически распределяет свои 19 миллиардов параметров: примерно 14 миллиардов для обработки видео и 5 миллиардов для аудио, обеспечивая когерентный мультимодальный выход в одном проходе.

Интеграция ControlNet позволяет вам выбрать точно, как модель интерпретирует ваше исходное видео. Хотите ли вы сохранить движение человека через детектирование позы, сохранить структуру сцены через картирование глубины или следовать точным контурам через детектирование Canny, у вас есть полный контроль над процессом трансформации.

Ключевые возможности

Три режима направления для каждого случая использования

Режим позы: Извлекает скелетную информацию и информацию о позе из вашего входного видео, идеален для передачи движения человека и персонажа. Этот режим надежно отслеживает позиционирование тела по кадрам, что делает его идеальным для танцевальных последовательностей, спортивных движений или любого контента, где движение человека является главным.
Режим глубины: Создает карты глубины из вашего исходного видео для сохранения структуры сцены и пространственных отношений. Используйте этот режим, когда вы хотите трансформировать окружение, изменить визуальные стили или применить творческие эффекты, сохраняя при этом фундаментальную геометрию вашего видеоматериала.
Режим краев Canny: Детектирует контуры в вашем исходном материале для направления генерации при сохранении форм и контуров. Этот режим отлично подходит для приложений передачи стиля, где вам нужно сохранить точные визуальные границы.

Гибкая обработка аудио

Модель предлагает три режима аудио, соответствующих вашим творческим потребностям:

Сохранить: Сохранить исходную дорожку звука из вашего входного видео — необходимо для сценариев синхронизации губ
Генерировать: Создать новое синхронизированное аудио, которое соответствует преобразованному видеоматериалу
Нет: Выходное видео без звука для проектов, где вы добавите аудио отдельно

Интеграция с эталонным изображением

Загрузите эталонное изображение, чтобы определить внешний вид вашего преобразованного видео. Модель будет применять визуальные характеристики вашего эталона, в то время как входное видео контролирует все движение. Это обеспечивает мощные трансформации, управляемые персонажами, где вы можете анимировать любое изображение персонажа движением из эталонного видеоматериала.

Встроенное улучшение промпта

Встроенный инструмент для улучшения промпта автоматически улучшает ваши текстовые описания для получения лучших результатов. В сочетании с текстовым кодировщиком Gemma-3 модели, который понимает тонкие языковые сигналы, включая эмоции персонажей, движения камеры и направления освещения, эта функция помогает вам достичь профессиональных результатов без обширного проектирования промпта.

Реальные варианты использования

Анимация персонажей и передача движения

Трансформируйте статичное изображение персонажа в полностью анимированное видео, применив движение из эталонного видеоматериала. Работаете ли вы с иллюстрированными персонажами, фотографиями или цифровыми аватарами, режим направления позы точно захватывает движение, в то время как эталонное изображение определяет визуальный выход.

Передача танца для социальных сетей

Создавайте привлекательный контент, передавая вирусные танцевальные движения любому объекту. Режим позы отслеживает позиционирование тела кадр за кадром, позволяя вам трансформировать танцевальные видео в стилизованную анимацию — идеально для контента TikTok, Instagram Reels и YouTube Shorts.

Передача стиля видео

Применяйте драматические визуальные трансформации к существующему видеоматериалу, сохраняя исходное движение. Используйте режим глубины для сохранения структуры сцены при изменении визуальных стилей, или режим краев Canny, когда точное сохранение формы наиболее важно.

Консистентность персонажей в видеопроизводстве

Для создателей, работающих над контентом серий или фирменными видео, функция эталонного изображения обеспечивает согласованное появление персонажа в нескольких клипах. Движение может поступать из разных исходных видео, в то время как внешний вид персонажа остается единообразным.

Создание видео с синхронизацией губ

Сохраняйте исходное аудио, трансформируя визуальный внешний вид вашего субъекта. Этот рабочий процесс особенно ценен для создания дублированного контента, анимированных версий живого видеоматериала или видеомодификаций, обеспечивающих конфиденциальность.

Начало работы на WaveSpeedAI

Использование LTX-2 19B ControlNet на WaveSpeedAI — это просто:

Загрузите ваше исходное видео — Это обеспечивает структуру движения для вашего выходного видео
Добавьте эталонное изображение (дополнительно) — Определите внешний вид, который вы хотите в вашем преобразованном видео
Напишите ваш промпт — Опишите, что вы хотите создать
Выберите режим управления — Выберите позу, глубину или Canny в зависимости от ваших потребностей
Выберите обработку аудио — Сохранить исходное, генерировать новое, или нет
Установите ваше разрешение — 480p для быстрых итераций, 720p для сбалансированного качества, 1080p для финального рендеринга
Генерируйте — Отправьте и скачайте ваше преобразованное видео

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/control",
    {
        "video": "https://example.com/source-video.mp4",
        "image": "https://example.com/reference.jpg",
        "prompt": "A person dancing in a futuristic neon city",
        "mode": "pose",
        "audio_mode": "generate",
        "resolution": "720p"
    },
)

print(output["outputs"][0])

Цена

Модель следует простому ценообразованию за секунду в зависимости от разрешения:

Разрешение	5s	10s	15s	20s
480p	$0.15	$0.30	$0.45	$0.60
720p	$0.20	$0.40	$0.60	$0.80
1080p	$0.30	$0.60	$0.90	$1.20

Профессиональные советы для получения наилучших результатов

Совпадение стартовых поз: Выровняйте позу субъекта в вашем эталонном изображении с начальной позой в вашем исходном видео для безупречных результатов
Выберите правильный режим: Используйте позу для движения человека/персонажа, глубину для структуры сцены, Canny для точности на основе краев
Итеративно эффективно: Начните с 480p для уточнения вашего подхода, затем рендерите финальный выход на 720p или 1080p
Стратегия аудио: Сохраняйте аудио для проектов синхронизации губ, генерируйте для свежего контента, или используйте нет, когда вы добавите аудио в постпроизводство

Почему WaveSpeedAI?

WaveSpeedAI предлагает идеальную среду для запуска LTX-2 19B ControlNet:

Без холодных запусков: Ваши задания сразу начинают обрабатываться без задержек инфраструктуры
Оптимизированный вывод: Развертывание, оптимизированное для NVIDIA, гарантирует вам максимально быстрое время генерации
Прозрачное ценообразование: Платите только за то, что вы генерируете с четким почасовым ценообразованием
API, готовый к производству: Интегрируйте непосредственно в ваши приложения и рабочие процессы

Начните создавать сегодня

LTX-2 19B ControlNet открывает новые возможности для создателей видео, аниматоров и разработчиков, которым нужен точный контроль над преобразованием видео. Комбинация режимов направления ControlNet, гибкой обработки аудио и мощной архитектуры 19B DiT обеспечивает результаты профессионального качества по доступным ценам.

Готовы преобразовать ваши видео с точным структурным руководством? Попробуйте LTX-2 19B ControlNet на WaveSpeedAI и откройте, что возможно, когда у вас есть полный контроль над генерацией видео на основе AI.

Представляем LTX-2 19B ControlNet: преобразование видео с точным контролем через позу, глубину и контуры

Что такое LTX-2 19B ControlNet?

Ключевые возможности

Реальные варианты использования

Начало работы на WaveSpeedAI

Профессиональные советы для получения наилучших результатов

Почему WaveSpeedAI?

Начните создавать сегодня

Похожие статьи

Seedance 2.0 уже скоро: видеомодель нового поколения от ByteDance с встроенным аудио

Seedance 2.0 vs Kling 3.0 vs Sora 2 vs Veo 3.1: Полное сравнение генерации видео

Seedance 2.0 Полное руководство: Создание видео с несколькими модальностями

Seedream 5.0-Preview Полное руководство: Интеллектуальная генерация изображений

Seedream 5.0 vs Nano Banana Pro vs GPT Image 1.5 vs Flux Klein vs Qwen Image: Полное сравнение

Умный Chrome с ИИ уже здесь: эволюция от отображения контента к его пониманию