LTX 2.3 Text-to-Video LoRAがWaveSpeedAIに登場

LTX-2.3 テキスト→動画（LoRAサポート）がWaveSpeedAIで利用可能に

想像と映像の境界線が、かつてないほど薄くなっています。本日、WaveSpeedAIにてLTX-2.3 テキスト→動画（LoRAサポート）の提供開始をお知らせします。このモデルはテキストから動画を生成するだけでなく、軽量なLoRAアダプターを使ってカスタムスタイル、キャラクター、モーションでビジョンを形にすることができます。

ブランドアイデンティティの構築、繰り返し登場するキャラクターのアニメーション、シネマティックなサインスタイルのコンテンツ制作など、LTX-2.3 with LoRAは汎用的な動画生成モデルでは実現できないコントロールをあなたに提供します。

LTX-2.3 テキスト→動画 LoRAとは？

LTX-2.3は、LightricksのLTXモデルファミリーの最新進化形です。Diffusion Transformer（DiT）ベースの基盤モデルで、単一のテキストプロンプトから映像と音声を1パスで同期生成します。別途の音声制作パイプラインも、後処理の回避策も不要です。シーンを説明するだけで、映像と音声の両方が生成されます。

このリリースを特に強力にしているのが、LoRA（Low-Rank Adaptation）サポートの追加です。LoRAアダプターは、ベースモデルの上に重なる軽量でトレーニング可能なモジュールで、特定のスタイル、キャラクター、モーションパターンへ出力を誘導します。最大3つのLoRAアダプターを同時に重ねることができ、LTX-2.3の完全な生成能力とカスタム美学を融合させることが可能です。

その結果、汎用的でありながら深くカスタマイズできるモデルが誕生しました。

主な特徴

映像・音声品質の向上

LTX-2.3は、より高品質なデータで訓練された完全再設計のVAE（変分オートエンコーダー）を搭載しています。細かいテクスチャ、髪の毛、テキストオーバーレイ、エッジの詳細が以前のバージョンよりシャープでリアルに仕上がります。音声面では、無音部分、ノイズ、アーティファクトがフィルタリングされたトレーニングデータが使用され、新しいボコーダーによってクリーンで信頼性の高い音声と映像コンテンツとの緊密な同期が実現しています。

プロンプト追従性の強化

新しいゲート付きアテンションテキストコネクターにより、プロンプトがより忠実に反映されます。タイミング、モーション、表情、音声キューの記述が生成出力に直接反映され、書いた内容と見える内容のギャップが縮小されます。

LoRAカスタマイズ

生成ごとに最大3つのLoRAアダプターを適用でき、それぞれのスケールを調整可能です。これにより：

ビジュアルスタイルの固定 — シネマティックな外観、アニメ美学、ブランドカラーパレット
キャラクターの一貫性維持 — クリップをまたいだ繰り返し登場する顔、フィギュア、マスコット
カスタムモーションパターンのトレーニング — サインムーブメント、カメラ技法、振り付け
アダプターの組み合わせ — キャラクターLoRA、スタイルLoRA、モーションLoRAを単一生成でレイヤー化

柔軟な出力オプション

解像度: 高速イテレーション用480p、バランスの取れた品質の720p、最終納品用1080p
尺: 5秒から20秒のクリップ生成
同期音声: 音声は単一モデルパスで映像と並行して生成され、「窓に当たる雨」「アップビートなジャズ」「群衆の歓声」といったプロンプトキューで音声をガイドする機能も利用可能

透明で予測可能な料金体系

すべての生成には解像度と尺に基づいた明確なコストが設定されています：

解像度	5秒	10秒	15秒	20秒
480p	$0.15	$0.30	$0.45	$0.60
720p	$0.20	$0.40	$0.60	$0.80
1080p	$0.25	$0.50	$0.75	$1.00

予想外の請求なし。隠れたコンピュート料金なし。

実際のユースケース

スケールでのブランドコンテンツ

マーケティングチームはブランドのビジュアルアイデンティティ（ロゴ処理、カラーパレット、モーショングラフィックスのスタイル）でLoRAをトレーニングし、テキスト説明だけでブランドに沿った動画コンテンツを生成できます。製品公開の20バリエーションが必要ですか？プロンプトを書き、ブランドLoRAを適用して生成するだけです。

キャラクター主導のストーリーテリング

特定のキャラクターを中心にシリーズやキャンペーンを構築するクリエイターは、参照クリップから類似LoRAをトレーニングできます。新しい動画ごとに同じキャラクターの外観が維持されるため、手動編集なしで連続コンテンツやSNSシリーズの視覚的一貫性を保てます。

SNSコンテンツ制作

5〜20秒の尺範囲は、TikTok、Instagram Reels、YouTubeショートなどのショートフォームコンテンツに完全にマッチします。クリエイティブブリーフから同期音声付きのスクロールを止めるクリップを直接生成し、最終版を1080pでレンダリングする前に480pでイテレーションできます。

迅速なプロトタイピングとコンセプト可視化

代理店やスタジオはテキスト→動画生成を使って、クライアントプレゼンテーション用のコンセプトを素早く可視化できます。シーンを説明し、シネマティックスタイルLoRAを適用すれば、数日ではなく数分で洗練されたプレビューが完成します。

モーションデザインとVFXの探求

特定のカメラムーブメント（トラッキングショット、ドリーズーム、スムーズなパン）でLoRAをトレーニングし、任意のシーンに適用できます。これにより、モーションデザイナーは意図したシネマティック言語にすでにマッチした出発点を得られます。

WaveSpeedAIでの始め方

最初の動画生成はわずか数行のコードで始められます：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/text-to-video-lora", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

WaveSpeedAIでの実行はコールドスタートなしを意味します。リクエストはウォームGPUに届き、即座に生成が始まります。手頃な生成ごとの料金とシンプルなREST APIと組み合わせることで、インフラのオーバーヘッドなしに動画生成を本番ワークフローに統合できます。

ベストな結果を得るためのプロのヒント

安価にイテレーション: 480pでプロンプトとLoRAの組み合わせを磨き、最終版を1080pでレンダリング
音声は具体的に: 「ソフトなピアノ音楽」「波が打ち寄せる音」「砂利の上の足音」などの音声キューをプロンプトに含めると、より意図的なサウンドスケープが実現
固定シードの使用: プロンプトバリエーションやLoRAスケールを比較する際は、シードを固定して実際に変化していることを分離
LoRAを戦略的に重ねる: スタイルアダプターとモーションアダプターを組み合わせて、単独では実現できない結果を生成し、それぞれのスケールを調整して適切なバランスを見つける

より大きな視点から

2026年、AI動画生成はひとつの転換点を超えました。かつてはぼやけた数秒のクリップを生成するだけの新奇なものが、一貫したモーションと同期音声を備えたシネマティック品質の出力が可能な本番対応ツールへと成熟しました。LoRAサポートを備えたLTX-2.3はその進化の次のステップを表しています。より良いベース品質だけでなく、モデルをあなたのものにする能力です。

カスタムLoRAは汎用動画モデルを、あなたのブランド、キャラクター、美学を理解した専門クリエイティブツールへと変えます。これが、汎用コンテンツを生成することと、あなたのコンテンツを生成することの違いです。