WaveSpeedAIでLTX-2 19Bが登場：テキスト・ツー・ビデオ生成と同期オーディオ

プロダクションレディなAIビデオジェネレーターを作成する競争は、新たなマイルストーンに到達しました。Lightricksの革新的なテキスト・ツー・ビデオ基盤モデルであるLTX-2 19Bが、WaveSpeedAIで利用可能になりました。これにより、クリエイター、マーケッター、デベロッパーは、同期されたオーディオ・ビデオ生成、複数のパフォーマンスモード、最大20秒のクリップを使用できます。

従来のビデオAIモデルが無音のクリップを生成し、別のオーディオポストプロダクションが必要とされるのに対し、LTX-2 19Bは単一のパスで完全なオーディオビジュアル体験を生成します。足音は歩行アニメーションと完全に同期します。環境音は視覚環境と一致します。音声のようなトーンと環境音はテキストプロンプトから自然に発生します。オーディオ編集は不要です。

LTX-2 19Bとは？

LTX-2 19Bは、同期された音声とビデオ生成を1つの統合システムで組み合わせる、最初のDiT（拡散トランスフォーマー）ベースのオーディオ・ビデオ基盤モデルです。190億のパラメーターを備えており、AIがマルチメディアコンテンツを生成する方法の根本的な建築転換を表しています。

Lightricksが2025年後半にリリースし、現在完全にオープンソース化されているLTX-2は、既に市場で最も開発者向けなビデオAIモデルの1つとして認識されています。コンシューマーGPUで効率的に実行でき、1080pまでの解像度でプロダクションレディな出力を提供し、重要なことにWaveSpeedAIユーザーにとって、コールドスタートなしで完全に使用可能なREST APIで利用可能であり、秒単位での手頃な価格設定があります。

このモデルは柔軟なアスペクト比（16:9ランドスケープと9:16縦向き）、5～20秒の可変期間、および品質、速度、コストのバランスを取る3つの解像度段階（480p、720p、1080p）をサポートしています。

LTX-2を特に優れたものにする主な機能

同期されたオーディオ・ビデオ生成

LTX-2の定義的な機能は、視覚コンテンツと自然に調和するオーディオを生成する能力です。「都市のスカイラインの上の嵐」をプロンプトするとき、稲妻フラッシュと雷鳴が得られます。「薄暗いクラブでジャズピアニストが演奏している」は、単にキーの上の手をアニメーション化するだけではなく、ライブパフォーマンスの環境サウンドスケープを生成します。

これはトップに重ねられたバックグラウンドミュージックではありません。ビジュアルを作成する同じ拡散プロセスを通じて生成された文脈的なオーディオであり、時間的および意味的な調整を保証します。

プロダクションレディな品質

LTX-2 19Bは、Sora 2やKling 2.6などのトップティアの競合他社に対してベンチマークされています。Sora 2は特定のユースケースで写実性をリードしていますが、LTX-2は説得力のあるバランスを提供します。自然に反応するキャラクター、時間的に一貫した動き、そして独自に20秒のビデオ生成は、Sora 2の12秒のキャップと比較されます。

業界比較によると、LTX-2はSora 2とのビジュアル品質でほぼ同等の性能を達成しながら、生成あたり約40%少ないコストで、より長い期間の出力を提供しています。

柔軟な解像度とアスペクト比

WaveSpeedAIの実装により、出力形式を完全に制御できます。

480p：高速反復、最小コスト。複数のプロンプトの迅速なプロトタイピングとテストに最適
720p：バランスの取れた品質とコスト。ほとんどのソーシャルメディアとウェブユースケースに適した
1080p：最終納品物、プレゼンテーション、高品質コンテンツの詳細化を最大化

16:9ランドスケープ（YouTube、デスクトップ）と9:16縦向き（TikTok、Instagram Reels、Stories）を切り替えて、追加のツールなしでプラットフォーム要件に一致させることができます。

可変期間制御

5～20秒のクリップを生成します。物語のビートを確立し、製品のデモを表示し、完全なソーシャルメディアスニペットを作成するのに十分な長さです。この拡張期間はLTX-2を競合他社と区別し、複数の生成をまとめる必要性を削減します。

実際のユースケース

短尺型のソーシャルコンテンツ

組み込みのオーディオを備えたTikTok、Reels、Storiesを数秒で作成します。別のオーディオソーシング、ライセンス、または手動の同期は不要です。「ネオンライトのトンネルを通るスケートボード」をプロンプトし、アップロード準備の完全なクリップを取得します。

製品デモンストレーション

環境音が視覚的なナラティブを強化するプロモーションビデオを生成します。「日当たりの良いキッチンでセラミックマグに注がれるコーヒー」のようなプロンプトは、蒸気、動き、および液体が磁器にぶつかる音を生成します。

マーケティングと広告

凝集力のあるオーディオビジュアルデザインで広告コンテンツを製作します。LTX-2の文脈的に適切なオーディオを生成する能力は、製品ショットが一致するサウンドスケープを備えていることを意味します。ストックオーディオライブラリは不要です。

プロトタイピングとコンセプト可視化

ステークホルダーのレビューのためのアイデアを迅速に可視化します。480pで反復してプロンプト変動をテストし、コンセプトがロックされたら1080pで最終版をレンダリングします。固定シードパラメーターは、反復全体での再現性を保証します。

コンテンツクリエイターとYouTuber

同期された音声を伴うB-roll、イントロ、またはナラティブシーケンスを生成します。20秒の期間ウィンドウは、確立されたショット、トランジション、またはスタンドアロンのストーリービートに最適です。

WaveSpeedAIで始める方法

WaveSpeedAIでLTX-2 19Bを使用するのは簡単です。

モデルページに移動する：https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
プロンプトを作成する：シーン、アクション、および特定のオーディオキューを記述します（例：「砂利の上の足音」、「遠い雷」、「ジャズピアノ」）
設定を構成する：
- 解像度：480p（高速反復）、720p（バランス）、または1080p（最終品質）を選択
- アスペクト比：16:9はランドスケープ、9:16は縦向き
- 期間：コンテンツニーズに基づいて5～20秒
- シード（オプション）：再現可能な結果のために固定値を設定
実行：リクエストを送信し、同期されたオーディオでビデオを受け取ります。ポストプロダクションは不要です。

WaveSpeedAIはすべてのインフラストラクチャを処理します。インスタント・コールドスタート、最適化された推論、および秒単位での課金があります。生成するもののみを支払い、5秒480pクリップで$0.06から始まる透明な価格設定があります。

Python SDKの例

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "秋の落ち葉で遊んでいるゴールデン・レトリバー、スローモーション",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # オーディオ付きビデオURL

スケーリングする価格

WaveSpeedAIは、解像度と期間でスケーリングする使用量ベースの価格を提供します。

解像度	5秒	10秒	15秒	20秒
480p	$0.06	$0.12	$0.18	$0.24
720p	$0.08	$0.16	$0.24	$0.32
1080p	$0.12	$0.24	$0.36	$0.48

この価格モデルにより、より低い解像度で自由に反復し、最終的な出力に対して高品質なレンダリングを予約することができます。創造的な柔軟性とコスト効率の両方を最大化します。

WaveSpeedAIを選ぶ理由

WaveSpeedAIは、プロダクションワークフローに必要なインフラストラクチャの利点を提供します。

コールドスタートなし：長時間のアイドル後でもインスタント推論
高速推論：最小待機時間のための最適化されたGPU割り当て
手頃な価格：使用する秒数と解像度のみを支払う
REST API：既存のワークフロー、自動化パイプライン、またはカスタムアプリケーションへの簡単な統合
透明な課金：隠された手数料、サブスクリプション段階、またはコンピュートクレジットはありません

最良の結果のためのプロのヒント

オーディオについて具体的に説明する：オーディオは自動的に生成されますが、プロンプトで音を説明する（「嵐」、「ジャズ音楽」、「足音」）ことはモデルを案内するのに役立ちます
アスペクト比をプラットフォームに合わせる：縦向き優先プラットフォーム（TikTok、Stories）に9:16を使用し、YouTubeとデスクトップに16:9を使用
480pで反復する：より低いコストでプロンプトをダイアルインし、最終的な配信のために1080pにアップスケール
固定シードを使用する：プロンプト変動をテストするときは、シードをロックして変更の効果を分離
複数のクリップを結合する：より長いコンテンツの場合は、20秒のセグメントを生成し、ポストで編集してまとめる

オーディオビジュアルAIの未来

LTX-2 19Bは、ビデオAIの根本的なシフトを表しており、無音クリップの生成から完全なオーディオビジュアル体験の生成へです。最初のDiT基盤のオーディオ・ビデオ基盤モデルとして、クリエイターが生成的ビデオツールから期待すべき新しいベースラインを設定しています。

WaveSpeedAIがインフラストラクチャを処理し、Lightricksのオープンソースモデルが最先端の生成品質を提供することで、最も重要なことに焦点を当てることができます。説得力のあるコンテンツの作成です。

今日からLTX-2 19Bを試す

最初の同期されたオーディオ・ビデオクリップを生成する準備ができていますか？WaveSpeedAIのLTX-2 19Bモデルページに移動して、作成を開始してください。ソロクリエイター、マーケティングチーム、自動化されたコンテンツパイプラインを構築しているデベロッパーのいずれであっても、LTX-2 19Bはニーズに合わせてスケーリングする価格でプロダクションレディな結果を提供します。

今すぐ生成を開始する：https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video