Представляем WaveSpeedAI LTX 2.3 Image-to-Video на WaveSpeedAI

Оживите свои изображения с помощью LTX-2.3 Image-to-Video на WaveSpeedAI

Статичные изображения рассказывают историю. Движущиеся изображения со звуком заставляют аудиторию почувствовать её. С появлением LTX-2.3 Image-to-Video на WaveSpeedAI вы можете превратить любое неподвижное изображение в высококачественное видео — с синхронизированным аудио — за один проход генерации. Без постпродакшена. Без отдельных аудиоинструментов. Просто загрузите, введите запрос и нажмите воспроизведение.

Созданный компанией Lightricks на архитектуре Diffusion Transformer (DiT), LTX-2.3 представляет собой значительный шаг вперёд в области объединённой генерации аудио и видео. В то время как большинство моделей image-to-video создают беззвучные клипы, требующие отдельного звукового дизайна, LTX-2.3 генерирует движение и аудио вместе как единый связный результат. Итогом является анимированный контент, который воспринимается цельным с первого кадра.

Что такое LTX-2.3?

LTX-2.3 — это последняя итерация семейства моделей LTX-2: базовая модель с 19 миллиардами параметров, примерно разделённая на 14 миллиардов для обработки видео и 5 миллиардов для аудио. Это одна из первых моделей с открытым исходным кодом, способных генерировать синхронизированное аудио и видео в рамках единой унифицированной архитектуры с использованием механизмов cross-attention для точного согласования звука и движения.

Выпуск «2.3» привносит значимые улучшения по сравнению с предшественником: перестроенный VAE (вариационный автокодировщик), обученный на более качественных данных, обновлённый вокодер HiFi-GAN для более чистого аудиовыхода, улучшенную согласованность при преобразовании изображения в видео и более точное следование запросам на протяжении всего конвейера генерации.

Ключевые возможности

Синхронизированная генерация аудио и видео: Звук не добавляется как запоздалая мысль. Фоновые шумы, музыка, реплики диалогов и звуковые эффекты генерируются вместе с визуальным движением за один проход, устраняя необходимость в отдельных аудиорабочих процессах.
Новый VAE для более чётких деталей: Перестроенное латентное пространство в LTX-2.3 сохраняет тонкие текстуры, черты лица, волосы, текст и чёткость краёв по всему кадру. Результаты заметно чище предыдущих версий.
Более чистый аудиовыход: Улучшенный вокодер HiFi-GAN уменьшает шумовые артефакты и паузы тишины. Диалоги, фоновые звуки и музыка воспроизводятся с заметно большей ясностью.
Точное сохранение исходного изображения: Модель сохраняет объект, композицию, кадрирование и освещение вашего референсного изображения, добавляя при этом естественное, связное движение — без смещения идентичности или визуальной деградации.
Гибкое разрешение и продолжительность: Генерируйте видео в 480p, 720p или 1080p с продолжительностью от 5 до 20 секунд, позволяя балансировать между качеством, стоимостью и творческими задачами.
Поддержка вертикального и горизонтального форматов: Нативный портретный режим 9:16 упрощает создание контента, оптимизированного для таких социальных платформ, как Instagram Reels, TikTok и YouTube Shorts.
Варианты 24/48 FPS: Выберите частоту кадров, соответствующую вашим требованиям к выводу — от стандартного воспроизведения до более плавной высокочастотной подачи.

Практические сценарии использования

Продуктовый маркетинг

Превращайте фотографии продуктов в динамичные презентационные видео. Загрузите главный снимок кроссовок, флакона средства по уходу за кожей или предмета мебели, и LTX-2.3 анимирует его с тонким движением — вращающимся видом, сменой освещения, атмосферой окружения — генерируя при этом подходящий фоновый звук. То, что раньше требовало видеографа и звукорежиссёра, теперь можно набросать за считанные секунды.

Контент для социальных сетей

Спрос на короткое видео неиссякаем. LTX-2.3 позволяет создателям конвертировать свои лучшие статичные изображения в анимированные публикации со встроенным звуком, которые невозможно проигнорировать. Пейзажная фотография превращается в кинематографический момент со звуком ветра и пением птиц. Фото еды становится шипящим, дымящимся клипом, готовым к публикации.

Анимация портретов и персонажей

Анимируйте портреты, аватары и арт персонажей с естественным движением. Модель отлично справляется с сохранением идентичности лица, добавляя при этом живое движение — едва заметные повороты головы, моргание, смену выражений — что делает её ценной для цифровых аватаров, творческих проектов и персонализированного контента.

Раскадровка и превизуализация

Для кинематографистов и арт-директоров LTX-2.3 преобразует статичные кадры раскадровки и концепт-арт в анимированные последовательности с синхронизированным аудио. Это ускоряет препродакшен, давая заинтересованным сторонам осязаемое ощущение темпа, настроения и звукового дизайна до того, как будет снят единственный кадр.

Электронная коммерция и реклама

Статичные листинги продуктов теряют внимание. Анимированные видео продуктов с фоновым звуком повышают вовлечённость и конверсию. LTX-2.3 делает практичной масштабную генерацию видеоассетов — быстро итерируйте в 480p, затем рендерите финальные ассеты в 1080p.

Начало работы на WaveSpeedAI

Запустить LTX-2.3 Image-to-Video на WaveSpeedAI просто. Без холодных стартов и с быстрым инференсом вы получаете результаты за секунды, а не минуты.

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "resolution": "720p",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/image-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Вы также можете указать разрешение и продолжительность:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A futuristic city at blue hour with soft volumetric light",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "resolution": "720p",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/image-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Совет профессионала: Начните с 480p и короткой продолжительностью, чтобы отточить запрос и направление движения. Как только вы получите желаемый результат, масштабируйтесь до 1080p для финальной подачи. Используйте фиксированный seed при сравнении вариантов запросов, чтобы точно изолировать изменения.

Ценообразование

LTX-2.3 на WaveSpeedAI начинается всего от $0,10 за 5-секундный клип в 480p и доходит до $0,80 за 20-секундное видео в 1080p. Никаких подписок — платите только за то, что генерируете.

Разрешение	5 с	10 с	15 с	20 с
480p	$0,10	$0,20	$0,30	$0,40
720p	$0,15	$0,30	$0,45	$0,60
1080p	$0,20	$0,40	$0,60	$0,80

Почему WaveSpeedAI?

В среде, где синхронизированная генерация аудио и видео стремительно становится стандартом — с такими моделями, как Veo 3.1, Kling 3.0 и Sora 2, раздвигающими границы возможного, — LTX-2.3 выделяется как мощная опция с открытым исходным кодом и качеством производственного уровня. А запуск на WaveSpeedAI обеспечивает подходящую инфраструктуру: быстрый инференс без холодных стартов, простую интеграцию API и ценообразование, делающее эксперименты доступными.

Независимо от того, являетесь ли вы независимым создателем, анимирующим контент для социальных сетей, или командой, генерирующей видеоассеты в масштабе, сочетание объединённой генерации аудио и видео LTX-2.3 и оптимизированной инфраструктуры WaveSpeedAI означает меньше времени в ожидании и больше времени на творчество.

Начните создавать

Разрыв между неподвижным изображением и готовым видео со звуком никогда не был таким маленьким. Попробуйте LTX-2.3 Image-to-Video на WaveSpeedAI уже сегодня и услышьте, как звучат ваши изображения в движении.

Оживите свои изображения с помощью LTX-2.3 Image-to-Video на WaveSpeedAI

Что такое LTX-2.3?

Ключевые возможности

Практические сценарии использования

Продуктовый маркетинг

Контент для социальных сетей

Анимация портретов и персонажей

Раскадровка и превизуализация

Электронная коммерция и реклама

Начало работы на WaveSpeedAI

Ценообразование

Почему WaveSpeedAI?

Начните создавать

Похожие статьи

Представляем ByteDance Seedance 2.0 Mini на WaveSpeedAI

Claude Fable 5: резервный переход на Opus 4.8 — объяснение

GLM-5.2 API: цены, контекст 1M и маршрутизация в продакшене

Цены на GPT-5.4 Mini: стоимость входных, кэшированных и выходных токенов

MAI-Image-2.5 API: что нужно знать разработчикам

Цена MiniMax M3: стоимость API с длинным контекстом для разработчиков