WaveSpeedAI LTX 2 19b Text-to-Video теперь доступен на WaveSpeedAI

LTX-2 19B запущена на WaveSpeedAI: генерация текста в видео с синхронизированным звуком

Гонка за созданием готовых к производству генераторов видео на основе ИИ только что достигла нового рубежа. LTX-2 19B, революционная базовая модель текста в видео от Lightricks, теперь доступна на WaveSpeedAI—принося синхронизированную генерацию аудио-видео, несколько режимов производительности и видеоклипы продолжительностью до 20 секунд для создателей, маркетологов и разработчиков.

В отличие от традиционных моделей видео ИИ, которые генерируют немые видеоклипы, требующие отдельной постпроизводственной обработки звука, LTX-2 19B создает полноценные аудиовизуальные впечатления за один проход. Шаги идеально синхронизируются с анимацией ходьбы. Звуковые ландшафты совпадают с визуальной окружающей средой. Речеподобные тоны и окружающий звук естественным образом возникают из вашего текстового запроса—никаких звуковых редакторов не требуется.

Что такое LTX-2 19B?

LTX-2 19B — это первая базовая модель аудио-видео на основе DiT (Diffusion Transformer), сочетающая синхронизированную генерацию звука и видео в единой системе. С 19 миллиардами параметров она представляет фундаментальный сдвиг в том, как ИИ генерирует мультимедийный контент.

Выпущенная компанией Lightricks в конце 2025 года и теперь полностью открытая, LTX-2 уже признана одной из самых удобных для разработчиков моделей видео ИИ на рынке. Она работает эффективно на потребительских GPU, обеспечивает готовый к производству результат с разрешением до 1080p и—критически важно для пользователей WaveSpeedAI—доступна через готовый к использованию REST API без холодного запуска и доступной оплатой за секунду.

Модель поддерживает гибкие соотношения сторон (16:9 альбомная ориентация и 9:16 портретная), переменную длительность от 5 до 20 секунд и три уровня разрешения (480p, 720p, 1080p) для балансирования качества, скорости и стоимости.

Ключевые функции, выделяющие LTX-2

Синхронизированная генерация аудио-видео

Определяющей особенностью LTX-2 является её способность генерировать звук, который естественным образом согласуется с визуальным контентом. Когда вы запрашиваете “грозу над горизонтом города”, вы получаете вспышки молний и грохот грома. “Джазовый пианист, выступающий в тускло освещённом клубе” создаёт не просто анимированные руки на клавишах, но и звуковую атмосферу живого выступления.

Это не фоновая музыка, наложенная сверху—это контекстный звук, генерируемый через тот же процесс диффузии, который создаёт визуальные эффекты, обеспечивая временное и семантическое выравнивание.

Готовое к производству качество

LTX-2 19B была протестирована против ведущих конкурентов, таких как Sora 2 и Kling 2.6. Хотя Sora 2 лидирует в фотореализме для определённых случаев использования, LTX-2 обеспечивает привлекательный баланс: естественно реактивные персонажи, временно согласованное движение и—уникально—генерация видео продолжительностью 20 секунд по сравнению с 12-секундным ограничением Sora 2.

Согласно отраслевым сравнениям, LTX-2 достигает почти полного паритета с Sora 2 в визуальном качестве при стоимости примерно на 40% дешевле за генерацию и предоставляя выходные данные более длительной продолжительности.

Гибкое разрешение и соотношение сторон

Реализация WaveSpeedAI даёт вам полный контроль над форматом вывода:

480p: Быстрая итерация, самая низкая стоимость—идеально для быстрого прототипирования и тестирования нескольких запросов
720p: Сбалансированное качество и стоимость, подходящие для большинства случаев использования в социальных сетях и в интернете
1080p: Максимальная детализация для финальных материалов, презентаций и высокопроизводственного контента

Вы можете переключаться между 16:9 альбомной ориентацией (YouTube, рабочий стол) и 9:16 портретной (TikTok, Instagram Reels, Stories), чтобы соответствовать требованиям платформы без дополнительных инструментов.

Контроль переменной длительности

Генерируйте видеоклипы от 5 до 20 секунд—достаточно долго, чтобы установить нарративный момент, показать демонстрацию продукта или создать полный фрагмент для социальных сетей. Эта расширенная длительность выделяет LTX-2 среди конкурентов и снижает необходимость объединения нескольких поколений вместе.

Реальные примеры использования

Контент для социальных сетей в коротком формате

Создавайте TikTok, Reels и Stories со встроенным звуком за считанные секунды. Не нужно искать отдельные источники звука, получать лицензии или вручную синхронизировать. Запросите “скейтбордист, едущий через туннель в неоновом свете” и получите полный видеоклип, готовый к загрузке.

Демонстрации продукции

Генерируйте рекламные видео с окружающим звуком, который улучшает визуальный рассказ. Запрос типа “кофе, наливаемый в керамическую кружку на залитой солнцем кухне” создаёт пар, движение и звук жидкости, попадающей на фарфор.

Маркетинг и реклама

Создавайте рекламный контент с согласованным аудиовизуальным дизайном. Способность LTX-2 генерировать контекстно подходящий звук означает, что ваши снимки продукта поставляются с соответствующими звуковыми пейзажами—не требуется библиотека стокового звука.

Прототипирование и концептуальная визуализация

Быстро визуализируйте идеи для обзора заинтересованными сторонами. Выполняйте итерацию с разрешением 480p для тестирования вариаций запросов, затем визуализируйте финалы с разрешением 1080p после утверждения концепции. Параметр фиксированного зерна обеспечивает воспроизводимость между итерациями.

Создатели контента и YouTubers

Генерируйте B-roll, интро или повествовательные последовательности с синхронизированным звуком. Окно продолжительности в 20 секунд идеально для установочных кадров, переходов или автономных нарративных моментов.

Как начать работу на WaveSpeedAI

Использование LTX-2 19B на WaveSpeedAI просто:

Перейдите на страницу модели: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
Напишите свой запрос: Опишите сцену, действие и любые специфические звуковые подсказки (например, “шаги по гравию”, “отдалённый гром”, “джазовое фортепиано”)
Настройте параметры:
- Разрешение: Выберите 480p (быстрая итерация), 720p (сбалансированное) или 1080p (финальное качество)
- Соотношение сторон: 16:9 для альбомной ориентации, 9:16 для портретной
- Длительность: 5–20 секунд в зависимости от потребностей контента
- Зерно (опционально): Установите фиксированное значение для воспроизводимых результатов
Запустите: Отправьте свой запрос и получите видео с синхронизированным звуком—никаких постпроизводственных работ не требуется

WaveSpeedAI обрабатывает всю инфраструктуру: мгновенный холодный запуск, оптимизированный вывод и выставление счетов за секунду. Вы платите только за то, что генерируете, с прозрачным ценообразованием, начиная с $0,06 за 5-секундный видеоклип 480p.

Пример Python SDK

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL with audio

Ценообразование, которое масштабируется

WaveSpeedAI предлагает модель ценообразования на основе использования, которая масштабируется с разрешением и длительностью:

Разрешение	5s	10s	15s	20s
480p	$0,06	$0,12	$0,18	$0,24
720p	$0,08	$0,16	$0,24	$0,32
1080p	$0,12	$0,24	$0,36	$0,48

Эта модель ценообразования гарантирует, что вы можете выполнять итерацию свободно с более низкими разрешениями и зарезервировать высококачественные визуализации для финальных выходных данных—максимизируя как творческую гибкость, так и экономическую эффективность.

Почему выбрать WaveSpeedAI?

WaveSpeedAI предоставляет инфраструктурные преимущества, которые вам нужны для рабочих процессов производства:

Без холодного запуска: Мгновенный вывод, даже после продолжительных периодов простоя
Быстрый вывод: Оптимизированное распределение GPU для минимального времени ожидания
Доступное ценообразование: Платите только за секунды и разрешение, которое вы используете
REST API: Простая интеграция в существующие рабочие процессы, конвейеры автоматизации или пользовательские приложения
Прозрачное выставление счетов: Никаких скрытых сборов, уровней подписки или кредитов вычислений

Профессиональные советы для лучших результатов

Будьте конкретны в отношении звука: Хотя звук генерируется автоматически, описание звуков в вашем запросе (“гроза”, “джазовая музыка”, “шаги”) помогает направить модель
Соответствуйте соотношению сторон платформе: Используйте 9:16 для платформ, ориентированных на портретное изображение (TikTok, Stories), 16:9 для YouTube и рабочего стола
Выполняйте итерацию с 480p: Настройте свой запрос при более низкой стоимости, затем масштабируйте до 1080p для финальной доставки
Используйте фиксированные зёрна: При тестировании вариаций запросов заблокируйте зерно, чтобы изолировать эффект ваших изменений
Объедините несколько видеоклипов: Для более длительного контента генерируйте 20-секундные сегменты и редактируйте их вместе при постпроизводстве

Будущее аудиовизуального ИИ

LTX-2 19B представляет фундаментальный сдвиг в видео ИИ—от генерации немых видеоклипов к созданию полноценных аудиовизуальных впечатлений. Как первая базовая модель аудио-видео на основе DiT, она устанавливает новую базовую линию для того, что создатели должны ожидать от инструментов генеративного видео.

С WaveSpeedAI, обрабатывающей инфраструктуру, и открытой моделью Lightricks, обеспечивающей передовое качество генерации, вы можете сосредоточиться на том, что важно: создание убедительного контента.

Попробуйте LTX-2 19B сегодня

Готовы ли вы создать своё первое видео с синхронизированным аудио и видео? Перейдите на страницу модели LTX-2 19B на WaveSpeedAI и начните создавать. Независимо от того, являетесь ли вы одиночным создателем, маркетинговой командой или разработчиком, создающим автоматизированные конвейеры контента, LTX-2 19B обеспечивает готовый к производству результат по цене, которая соответствует вашим потребностям.

Начните генерировать сейчас: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video