Представляем WaveSpeedAI LTX 2.3 Text-to-Video LoRA на WaveSpeedAI

Представляем LTX-2.3 Text-to-Video с поддержкой LoRA на WaveSpeedAI

Граница между воображением и видео никогда не была такой тонкой. Сегодня мы с радостью объявляем о доступности LTX-2.3 Text-to-Video с поддержкой LoRA на WaveSpeedAI — модели, которая не просто генерирует видео из текста, но позволяет формировать его в соответствии с вашим видением: с помощью собственных стилей, персонажей и движения через лёгкие адаптеры LoRA.

Создаёте ли вы фирменный стиль бренда, анимируете повторяющегося персонажа или создаёте контент с характерной кинематографической эстетикой — LTX-2.3 с LoRA даёт вам тот уровень контроля, которого обычные модели генерации видео просто не могут обеспечить.

Что такое LTX-2.3 Text-to-Video LoRA?

LTX-2.3 — это последнее развитие семейства моделей LTX от Lightricks — базовая модель на основе Diffusion Transformer (DiT), которая генерирует синхронизированное видео и аудио из одного текстового запроса за один проход. Никакого отдельного конвейера производства аудио. Никаких обходных решений при постобработке. Вы описываете сцену — и получаете как визуальный ряд, так и звук.

Особую мощь этому релизу придаёт добавление поддержки LoRA (Low-Rank Adaptation). Адаптеры LoRA — это лёгкие обучаемые модули, которые надстраиваются над базовой моделью и направляют её вывод к определённым стилям, персонажам или паттернам движения. Вы можете одновременно применять до трёх адаптеров LoRA, сочетая пользовательскую эстетику с полной генеративной мощью LTX-2.3.

Результат: модель, которая одновременно универсальна и глубоко настраиваема.

Ключевые возможности

Улучшенное качество визуального ряда и аудио

LTX-2.3 поставляется с полностью переработанным VAE (вариационным автоэнкодером), обученным на данных более высокого качества. Тонкие текстуры, волосы, текстовые наложения и детали краёв стали чище и реалистичнее по сравнению с предыдущими версиями. На стороне аудио обучающие данные были отфильтрованы от пробелов тишины, шумов и артефактов, а новый вокодер обеспечивает более чистый и надёжный звук с более точной синхронизацией с визуальным контентом.

Улучшенное следование подсказкам

Новый текстовый коннектор с gated attention означает более точное следование вашим запросам. Описания тайминга, движения, выражений и звуковых сигналов напрямую транслируются в генерируемый результат — сокращая разрыв между тем, что вы пишете, и тем, что видите.

Настройка с помощью LoRA

Применяйте до трёх адаптеров LoRA на генерацию, каждый с регулируемым масштабом. Это позволяет:

Зафиксировать визуальный стиль — кинематографическая эстетика, аниме-стиль, фирменные цветовые палитры
Поддерживать консистентность персонажа — повторяющиеся лица, фигуры или маскоты в разных клипах
Обучать пользовательские паттерны движения — фирменные движения, техники съёмки, хореография
Комбинировать адаптеры — объединить LoRA персонажа, LoRA стиля и LoRA движения в одной генерации

Гибкие варианты вывода

Разрешения: 480p для быстрой итерации, 720p для сбалансированного качества, 1080p для финальной доставки
Длительность: генерация клипов от 5 до 20 секунд
Синхронизированное аудио: звук генерируется вместе с видео за один проход модели, с возможностью направлять аудио через подсказки вроде «дождь на окне», «живой джаз» или «приветствующая толпа»

Прозрачное, предсказуемое ценообразование

Каждая генерация имеет чёткую стоимость в зависимости от разрешения и длительности:

Разрешение	5 с	10 с	15 с	20 с
480p	$0.15	$0.30	$0.45	$0.60
720p	$0.20	$0.40	$0.60	$0.80
1080p	$0.25	$0.50	$0.75	$1.00

Никаких сюрпризов. Никаких скрытых расходов на вычисления.

Реальные сценарии использования

Брендовый контент в масштабе

Маркетинговые команды могут обучить LoRA на визуальной идентичности своего бренда — оформлении логотипа, цветовых палитрах, стиле моушн-графики — и затем генерировать фирменный видеоконтент исключительно из текстовых описаний. Нужно 20 вариантов презентации продукта? Пишите запросы, применяйте LoRA бренда и генерируйте.

Сторителлинг с персонажами

Авторы, создающие серии или кампании вокруг конкретного персонажа, могут обучить LoRA портретного сходства на основе референсных клипов. Каждое новое видео сохраняет тот же внешний вид персонажа, делая эпизодический контент и серии для социальных сетей визуально последовательными без ручного монтажа.

Создание контента для социальных сетей

Диапазон длительности от 5 до 20 секунд идеально подходит для короткого контента для TikTok, Instagram Reels и YouTube Shorts. Генерируйте захватывающие клипы с синхронизированным аудио прямо из креативного брифа, затем итерируйте при 480p перед финальным рендером в 1080p.

Быстрое прототипирование и визуализация концепций

Агентства и студии могут использовать генерацию text-to-video для быстрой визуализации концепций для клиентских презентаций. Опишите сцену, примените кинематографическую LoRA стиля и создайте отполированный превью за минуты, а не дни.

Моушн-дизайн и исследование VFX

Обучайте LoRA на конкретных движениях камеры — трекинговые планы, наезды с трансфокацией, плавные панорамы — и применяйте их к любой сцене. Это даёт моушн-дизайнерам отправную точку, уже соответствующую задуманному кинематографическому языку.

Начало работы на WaveSpeedAI

Для генерации первого видео достаточно нескольких строк кода:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/text-to-video-lora", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Работа на WaveSpeedAI означает отсутствие холодных стартов — ваш запрос попадает на прогретый GPU и немедленно начинает генерацию. В сочетании с доступным ценообразованием за генерацию и простым REST API вы можете интегрировать генерацию видео в производственные рабочие процессы без инфраструктурных издержек.

Советы профессионалов для лучших результатов

Итерируйте дёшево: начинайте с 480p для уточнения запроса и комбинации LoRA, затем рендерите финальную версию в 1080p
Будьте конкретны с аудио: включайте звуковые подсказки в запрос — «тихая фортепианная музыка», «шум волн», «шаги по гравию» — для более продуманных звуковых ландшафтов
Используйте фиксированные сиды: при сравнении вариантов запросов или масштабов LoRA фиксируйте сид, чтобы изолировать то, что действительно меняется
Стратегически комбинируйте LoRA: объединяйте адаптер стиля с адаптером движения для результатов, которых ни один из них не мог бы достичь в одиночку, регулируя масштаб каждого для поиска правильного баланса

Общая картина

Генерация видео с помощью ИИ в 2026 году перешагнула определённый порог. То, что когда-то было диковинкой, производящей размытые клипы длиной в секунды, превратилось в готовый к производству инструмент, способный создавать вывод кинематографического качества с когерентным движением и синхронизированным аудио. LTX-2.3 с поддержкой LoRA представляет следующий шаг в этой эволюции: не просто лучшее базовое качество, но возможность сделать модель своей.

Пользовательские LoRA превращают универсальную модель генерации видео в специализированный творческий инструмент, который понимает ваш бренд, ваших персонажей и вашу эстетику. Вот в чём разница между генерацией обобщённого контента и генерацией вашего контента.

Начните создавать сегодня

LTX-2.3 Text-to-Video с поддержкой LoRA доступен прямо сейчас на WaveSpeedAI. Перейдите на страницу модели, чтобы изучить API, запустить первую генерацию и увидеть, что становится возможным, когда вы сочетаете передовую генерацию видео с точностью пользовательских адаптеров LoRA.

Ваш текст. Ваш стиль. Ваше видео.