Представляем WaveSpeedAI LTX 2.3 LipSync на WaveSpeedAI

Новое поколение AI-синхронизации губ уже здесь: LTX-2.3 Lipsync

Создавать реалистичные видео с говорящими персонажами по аудиозаписи никогда не было так просто — и никогда это не выглядело так хорошо. Мы рады объявить о запуске LTX-2.3 Lipsync на WaveSpeedAI — новейшей версии модели генерации видео на основе аудио от Lightricks. Построенная на обновлённой архитектуре LTX-2.3 DiT, эта модель обеспечивает заметно более чёткое изображение, более точную синхронизацию губ и более качественное согласование аудио и видео по сравнению с предыдущей версией.

Создаёте ли вы виртуальных ведущих для корпоративного обучения, локализуете маркетинговые видео на десятки языков или переводите подкасты в формат видеоконтента — LTX-2.3 Lipsync делает всё это возможным через простой вызов API без задержек холодного старта и по цене от $0,10 за генерацию.

Что такое LTX-2.3 Lipsync?

LTX-2.3 Lipsync — это продвинутая AI-модель, которая генерирует видео с говорящим персонажем на основе аудиофайла и необязательного референсного портретного изображения. Загрузите запись речи — и модель создаст видео с точно синхронизированными движениями губ, естественными движениями головы и соответствующей мимикой.

Модель основана на платформе Lightricks LTX-2.3 — архитектуре Diffusion Transformer (DiT), которая генерирует видео и аудио вместе в едином пайплайне. В отличие от устаревших подходов к синхронизации губ, которые накладывают анимацию рта на статичное лицо как этап постобработки, LTX-2.3 понимает глубокую взаимосвязь между речью и визуальным движением. В результате получается видео, которое не просто сопоставляет форму губ с фонемами, но и передаёт едва заметные наклоны головы, движения бровей и смену выражений лица, которые делают человеческую речь естественной.

Версия 2.3 включает переработанный VAE, дающий более чёткие детали и реалистичные текстуры, улучшенную согласованность движений, устраняющую статичность или дрожание артефактов более ранних моделей, а также gated attention text connector для лучшего следования подсказкам. Это не постепенные улучшения — они представляют собой значимый прирост качества, заметный в каждом кадре.

Ключевые возможности

Улучшенное согласование аудио и видео: Обновлённая архитектура обеспечивает более точную синхронизацию губ с чётким сопоставлением фонем для разных языков и стилей речи
Более высокое качество изображения: Новый VAE обеспечивает более чёткие черты лица, реалистичные текстуры кожи и чистые контуры на протяжении всего видео
Генерация на основе аудио: Загрузите аудиофайл, и модель сделает всё остальное — синхронизацию губ, движения головы, моргание и мимику — автоматически
Необязательное референсное изображение: Предоставьте портрет для определения внешности говорящего или позвольте модели сгенерировать его автоматически
Гибкое разрешение: Выберите 480p для быстрой итерации, 720p для сбалансированного качества или 1080p для финального результата
Автоматическое совпадение длительности: Длина видео автоматически соответствует длине аудио — поддерживаются клипы от 5 до 20 секунд
Стиль под управлением промптов: Используйте необязательные текстовые подсказки для влияния на мимику, освещение и общий стиль генерируемого видео

Примеры реального применения

Маркетинг и брендовый контент

Видео с AI-ведущими меняют принципы работы маркетинговых команд. Такие компании, как Stellantis Financial Services и Sonesta Hotels, сообщают о снижении затрат на производство видео на 60–80% благодаря AI-ведущим. С LTX-2.3 Lipsync вы можете создавать стабильные видео с официальным представителем для запусков продуктов, социальных кампаний и персонализированных обращений — а затем перегенерировать их на новых языках без пересъёмки ни единого кадра.

Корпоративное обучение и e-learning

Корпоративный рынок обучения активно внедряет AI-видео для масштабируемого учебного контента. LTX-2.3 Lipsync позволяет дизайнерам учебных программ создавать обучающие видео с ведущим только на основе сценариев. Обновляйте учебный контент, просто перезаписывая аудио — без студийного времени, без проблем с расписанием, без задержек производства. Одно референсное изображение может стать постоянным лицом целой программы обучения.

Локализация контента и дублирование

Глобальным компаниям нужен контент на нескольких языках. Традиционное дублирование дорого и трудозатратно. С LTX-2.3 Lipsync вы можете взять существующую аудиодорожку на любом языке и сгенерировать соответствующее видео с говорящим персонажем с точными движениями губ для этого языка. Модель автоматически учитывает различия в форме рта и речевых паттернах разных языков.

Подкасты и конвертация аудио в видео

Видео стабильно превосходит только-аудио контент на социальных платформах. Конвертируйте фрагменты подкастов, нарратив или закадровые записи в увлекательные видео с говорящим персонажем, привлекающие внимание в лентах. Это особенно ценно для превращения длинного аудиоконтента в короткие видеоклипы для платформ вроде YouTube Shorts, TikTok и Instagram Reels.

Доступность

Создавайте визуальный речевой контент для слабослышащих зрителей, генерируйте пояснительные видео с чёткими визуальными речевыми сигналами или производите дополнительные визуальные материалы для аудио-ориентированного образовательного контента.

Начало работы на WaveSpeedAI

Интеграция LTX-2.3 Lipsync в ваш рабочий процесс требует всего нескольких строк кода:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "audio": "https://interactive-examples.mdn.mozilla.net/media/cc0-audio/t-rex-roar.mp3",
    "resolution": "720p",
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/lipsync", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

API прост в использовании:

audio (обязательный): URL вашего аудиофайла — он управляет генерацией и определяет длину видео
image (необязательный): URL референсного портрета, определяющего внешность говорящего
prompt (необязательный): Текстовое руководство для стиля выражений и визуального тона
resolution (необязательный): 480p, 720p (по умолчанию) или 1080p

Прозрачное и доступное ценообразование

Цена зависит от длительности аудио и разрешения:

Разрешение	5 секунд	10 секунд	15 секунд	20 секунд
480p	$0,10	$0,20	$0,30	$0,40
720p	$0,15	$0,30	$0,45	$0,60
1080p	$0,20	$0,40	$0,60	$0,80

Без подписок, без минимальных обязательств. Платите только за то, что генерируете.

Советы для лучших результатов

Начните с 480p: Итерируйте аудио и референсное изображение при минимальном разрешении, чтобы быстро найти нужный вид, а затем рендерите финальную версию в 720p или 1080p.
Используйте чистое аудио: Чёткая речь с минимальным фоновым шумом обеспечивает наилучшую точность синхронизации губ. Предварительно обработайте шумные записи перед отправкой.
Выбирайте портреты анфас: Референсные изображения с хорошо видимым лицом, нейтральным выражением и хорошим освещением дают наиболее естественные результаты.
Направляйте с помощью промптов: Используйте необязательный параметр prompt для влияния на выражение и стиль — например, «тёплая улыбка, профессиональное освещение» или «серьёзный тон, прямой зрительный контакт».
Разбивайте более длинный контент на части: Для контента длиннее 20 секунд генерируйте несколько клипов и склеивайте их в постобработке. Держите каждый сегмент до 20 секунд для оптимального качества.

Почему WaveSpeedAI?

Запуск LTX-2.3 Lipsync на WaveSpeedAI даёт вам инфраструктурные преимущества, важные в производственной среде:

Без холодных стартов: Запросы начинают обрабатываться немедленно — без ожидания прогрева GPU
Быстрый инференс: Оптимизированная инфраструктура обслуживания обеспечивает быстрые результаты для стремительной итерации
Простой REST API: Добавьте генерацию говорящих персонажей в любое приложение с минимальными усилиями по интеграции
Предсказуемые затраты: Прозрачное ценообразование за генерацию без скрытых комиссий

Начните создавать сегодня

LTX-2.3 Lipsync представляет собой значительный скачок в качестве аудио-ориентированной генерации видео. Сочетание улучшенной визуальной точности, более точной синхронизации губ и практической гибкости генерации под управлением промптов делает её одной из наиболее способных моделей синхронизации губ, доступных через API сегодня.

Готовы создать своё первое видео с говорящим персонажем? Попробуйте LTX-2.3 Lipsync на WaveSpeedAI и убедитесь в разнице сами.

Новое поколение AI-синхронизации губ уже здесь: LTX-2.3 Lipsync

Что такое LTX-2.3 Lipsync?

Ключевые возможности

Примеры реального применения

Маркетинг и брендовый контент

Корпоративное обучение и e-learning

Локализация контента и дублирование

Подкасты и конвертация аудио в видео

Доступность

Начало работы на WaveSpeedAI

Прозрачное и доступное ценообразование

Советы для лучших результатов

Почему WaveSpeedAI?

Начните создавать сегодня

Похожие статьи

Представляем ByteDance Seedance 2.0 Mini на WaveSpeedAI

Claude Fable 5: резервный переход на Opus 4.8 — объяснение

GLM-5.2 API: цены, контекст 1M и маршрутизация в продакшене

Цены на GPT-5.4 Mini: стоимость входных, кэшированных и выходных токенов

MAI-Image-2.5 API: что нужно знать разработчикам

Цена MiniMax M3: стоимость API с длинным контекстом для разработчиков