WaveSpeedAI LTX 2.3 LipSyncがWaveSpeedAIに登場

次世代AIリップシンクの登場：LTX-2.3 Lipsync

音声からリアルなトーキングヘッド動画を作成することが、かつてないほど簡単に、そして美しくなりました。WaveSpeedAIにLTX-2.3 Lipsyncが登場しました。Lightricksの音声駆動型動画生成モデルの最新進化版です。アップグレードされたLTX-2.3 DiTアーキテクチャを基盤とするこのモデルは、前世代と比較して、明らかに鮮明なビジュアル、より正確なリップシンク、そしてクリーンな音声・映像の整合性を実現します。

企業研修用のバーチャルプレゼンターの構築、数十言語にわたるマーケティング動画のローカライズ、ポッドキャスト音声の魅力的な動画コンテンツへの変換など、LTX-2.3 Lipsyncはシンプルなアプリ呼び出し一つで実現可能です。コールドスタートなし、生成あたりわずか$0.10からの価格設定です。

LTX-2.3 Lipsyncとは？

LTX-2.3 Lipsyncは、音声ファイルとオプションの参照ポートレート画像からトーキングヘッド動画を生成する高度なAIモデルです。音声録音を入力すると、正確に同期したリップムーブメント、自然な頭部の動き、文脈に適した表情を持つ動画が生成されます。

このモデルはLightricksのLTX-2.3基盤——映像と音声を統合パイプラインで同時に生成するDiffusion Transformer（DiT）アーキテクチャ——の上に構築されています。静止した顔に口の動きを後処理として追加する従来のリップシンク手法とは異なり、LTX-2.3は音声と視覚的な動きの深い関係を理解しています。その結果、単に音素に口の形を合わせるだけでなく、人間の発話を自然に見せる微妙な頭の傾き、眉の動き、表情の変化も捉えた動画が生成されます。

バージョン2.3では、よりシャープな細部とよりリアルなテクスチャを生成する再設計されたVAE、以前のモデルの静止したりぶれたりするアーティファクトを排除した改善されたモーション一貫性、そしてより優れたプロンプト準拠のためのゲート付きアテンションテキストコネクターが導入されました。これらは単なる微調整ではなく、すべてのフレームで目に見える意味のある品質向上を表しています。

主な機能

改善された音声・映像整合性：アップグレードされたアーキテクチャが、言語や話し方のスタイルを超えてクリーンな音素マッチングでより正確なリップシンクを実現
鮮明なビジュアル品質：新しいVAEが、動画全体を通じてよりくっきりした顔の特徴、よりリアルな肌のテクスチャ、クリーンなエッジを生成
音声駆動型生成：音声ファイルをアップロードするだけで、リップシンク、頭部の動き、まばたき、表情など、すべてを自動的に処理
オプションの参照画像：ポートレートを提供して話者の外観を定義するか、モデルのデフォルトで生成させることも可能
柔軟な解像度：素早い反復処理には480p、バランスの取れた品質には720p、本番環境対応の出力には1080pを選択
自動継続時間マッチング：動画の長さが自動的に音声入力に合わせて調整され、5秒から20秒のクリップをサポート
プロンプトガイドスタイル：オプションのテキストプロンプトを使用して、生成された動画の表情、照明、全体的なスタイルに影響を与えることが可能

実際のユースケース

マーケティングとブランドコンテンツ

AIトーキングヘッド動画は、マーケティングチームの業務を変革しています。Stellantis Financial ServicesやSonesta Hotelsなどの企業は、AI生成プレゼンターを使用して動画制作コストを60〜80%削減したと報告しています。LTX-2.3 Lipsyncを使用すれば、製品発表、ソーシャルキャンペーン、個別アウトリーチ向けの一貫したスポークスパーソン動画を作成し、1フレームも再撮影することなく新しい言語で再生成できます。

企業研修とeラーニング

エンタープライズ学習市場は、スケーラブルなトレーニングコンテンツのためにAI動画を急速に採用しています。LTX-2.3 Lipsyncを使用すると、インストラクショナルデザイナーはスクリプトだけでプレゼンター主導のトレーニング動画を制作できます。音声を再録音するだけでコースコンテンツを更新でき、スタジオの時間も、スケジュールの調整も、制作の遅延も必要ありません。1枚の参照画像が、トレーニングプログラム全体の一貫した顔になります。

コンテンツのローカライズと吹き替え

グローバルビジネスは複数の言語でコンテンツを必要とします。従来の吹き替えは費用と時間がかかります。LTX-2.3 Lipsyncを使用すると、任意の言語の既存の音声トラックを使用して、その言語の正確なリップムーブメントを持つトーキングヘッド動画を生成できます。モデルは言語間の口の形や発話パターンの違いを自動的に処理します。

ポッドキャストと音声から動画への変換

動画はソーシャルプラットフォームで音声のみのコンテンツよりも一貫して優れたパフォーマンスを発揮します。ポッドキャストのクリップ、ナレーション、またはボイスオーバー録音を、フィードで注目を集める魅力的なトーキングヘッド動画に変換します。これは、YouTube Shorts、TikTok、Instagram Reelsなどのプラットフォーム向けに長形式の音声コンテンツを短形式の動画クリップに再利用するのに特に価値があります。

アクセシビリティ

聴覚障害のある視聴者向けに視覚的な音声コンテンツを生成したり、明確な視覚的発話の手がかりを持つナレーション付き解説動画を作成したり、音声優先の教育コンテンツ向けに補助的な視覚素材を制作したりすることができます。

WaveSpeedAIでの使い方

LTX-2.3 Lipsyncをワークフローに統合するには、わずか数行のコードで完了します：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "audio": "https://interactive-examples.mdn.mozilla.net/media/cc0-audio/t-rex-roar.mp3",
    "resolution": "720p",
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/lipsync", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

APIはシンプルです：

audio（必須）：音声ファイルへのURL——生成を駆動し、動画の長さを決定します
image（オプション）：話者の外観を定義する参照ポートレートへのURL
prompt（オプション）：表情スタイルと視覚的なトーンのテキストガイダンス
resolution（オプション）：480p、720p（デフォルト）、または1080p

透明で手頃な価格設定

価格は音声の長さと解像度によってスケールします：

解像度	5秒	10秒	15秒	20秒
480p	$0.10	$0.20	$0.30	$0.40
720p	$0.15	$0.30	$0.45	$0.60
1080p	$0.20	$0.40	$0.60	$0.80

サブスクリプションなし、最低コミットメントなし。生成した分だけお支払いください。

最良の結果を得るためのヒント

480pから始める：最低解像度で音声と参照画像を繰り返し試して最適な見た目を素早く見つけ、その後720pまたは1080pで最終版をレンダリングしてください。
クリーンな音声を使用する：バックグラウンドノイズが最小限の明瞭な音声が最高のリップシンク精度を生み出します。ノイズの多い録音は提出前に前処理してください。
正面向きのポートレートを選ぶ：顔がはっきりと見え、ニュートラルな表情で、良好な照明の参照画像が最も自然な結果をもたらします。
プロンプトでガイドする：オプションのプロンプトパラメーターを使用して表情とスタイルに影響を与えましょう——例えば「温かい笑顔、プロフェッショナルな照明」や「真剣なトーン、直接的なアイコンタクト」など。
長いコンテンツを分割する：20秒を超えるコンテンツは、複数のクリップを生成してポストプロダクションで結合してください。最適な品質のために各セグメントを20秒以下に保ってください。