← ブログ

LTX 2.3 Text-to-VideoがWaveSpeedAIに登場

LTX-2.3は、単一モデル内で映像と音声を同期生成するために設計されたDiTベースの音声・映像基盤モデルで、音声および映像品質が向上しています。

By WaveSpeedAI 2 min read
Wavespeed Ai Ltx.2.3 Text To Video LTX-2.3は、単一モデル内で映像と音声を同期生成するために設計されたDiTベースの音声・映像基盤モデルで、音声および...
Try it

LTX-2.3 テキスト・トゥ・ビデオ:1つのプロンプトから同期した映像と音声を生成

LTX-2.3は、単一のテキストプロンプトから完全に同期した映像と音声を生成するDiTベースのオーディオビデオ基盤モデルです。映像と音声を別々に制作するという従来の2ステップのワークフローを不要にします。WaveSpeedAIで提供開始されたこのアップグレード版は、前バージョンと比較してより鮮明な映像、豊かな音声、そして明らかに向上したプロンプト追従性を実現しており、複数のAIツールを組み合わせることなくプロダクション品質のクリップを求めるクリエイターにとって魅力的な選択肢となっています。

スタジオ、マーケター、インディークリエイターにとっての核心はシンプルです:シーンを入力すれば、すでに正しい音がついた映像が得られます。

LTX-2.3 テキスト・トゥ・ビデオの仕組み

LTX-2.3は、映像と音声データを同時に学習したDiffusion Transformer(DiT)アーキテクチャで構築されています。無音の映像を生成してから後で音声を吹き込むのではなく、このモデルは単一のフォワードパスで両方のモダリティを生成するため、画面上のイベントと音声キューが常に揃います。足音はビートに合って鳴り、雨粒が映れば雨音がざわめき、セリフのような環境音は視覚的なコンテキストと一致します。

開発者が重視する主な技術仕様:

  • 入力:シーン、モーション、音声キューを説明するテキストプロンプト
  • 出力:同期音声が埋め込まれたMP4動画
  • 解像度:480p、720p(デフォルト)、1080p
  • :1回の生成で5秒から20秒
  • 制約:幅と高さは32の倍数、フレーム数は8の倍数+1
  • シード制御:再現可能な反復処理のためのオプション固定シード

無音クリップを出力するテキスト・トゥ・ビデオモデル(Soraスタイルや初期の拡散ベースライン)と比較して、LTX-2.3は映像合成と音声生成という2つのパイプラインを1つの基盤モデルに統合します。これにより、レイテンシーの低下、コストの削減、そしてポスト作業での手動同期作業が不要になります。

試してみませんか?WaveSpeedAIでLTX-2.3 テキスト・トゥ・ビデオを試すと、1分以内に最初のクリップを生成できます。

LTX-2.3 テキスト・トゥ・ビデオの主な特徴

  • 1回のパスで映像と音声を同期 — 別途サウンドデザインのステップは不要。モデルは同じ拡散プロセスの一部として、マッチングする環境音、効果音、雰囲気のある音声を生成します。
  • LTX-2に比べて向上したプロンプト追従性 — 2.3アップデートにより、詳細なプロンプトとレンダリングされたシーン間のアライメントが強化され、複雑な説明がより確実に画面に反映されます。
  • 3段階の解像度(480p / 720p / 1080p) — 480pで安価に反復し、プロンプトやワークフローを変えることなく最終納品用に1080pにスケールアップ。
  • 最大20秒の可変クリップ長 — 広告読み上げ、ソーシャルフック、短いナラティブビートに十分な長さで、かつ生成を高速に保つのに十分な短さ。
  • DiTベースの基盤モデル — Diffusion Transformerアーキテクチャが、特に動的シーンにおいて時間的に一貫したモーションと高忠実度のテクスチャを実現。
  • プロダクション対応のREST API — コールドスタートなし、予測可能なレイテンシー、従量課金制でWaveSpeedAIにて利用可能。
  • シード制御による再現可能な出力 — シードをロックしてランダムな分散を排除しながらプロンプトのバリエーションをA/Bテスト。

LTX-2.3 テキスト・トゥ・ビデオの最適なユースケース

ソーシャルメディアコンテンツの大量生成

短尺プラットフォームはスピードと音声を重視します。LTX-2.3を使えば、クリエイターはサウンドデザインが内蔵されたTikTok、Reels、Shorts用の10〜15秒クリップを、著作権フリーの音楽を探したりAudacityでタイムラインを組んだりすることなく制作できます。「ネオン輝く東京の街、水たまりに当たる雨、遠くから聞こえるジャズ、スローなドリーフォワード」と入力すれば、すぐに使えるポストが返ってきます。

マーケティングとパフォーマンス広告

パフォーマンスマーケターは週に何十ものクリエイティブバリアントをテストする必要があります。LTX-2.3があれば、エージェンシーは1スポット10秒あたり$0.30で720pのフル広告を生成し、コピーやシーンの説明を入れ替え、従来のプロダクションパイプラインよりも速くクリエイティブコンセプトを反復できます。同期音声により、各バリアントは最初から広告ネットワーク対応となっています。

ストーリーボードとプリビジュアライゼーション

映画監督やアニメーターは、書かれたシーンをマッチする雰囲気を持つ動くプレビズに変換できます。脚本のシーンを説明し(「砂漠の尾根を吹き抜ける風、カメラの前を駆け抜けるライダー、頭上で鳴くカラス」)、実際の撮影日の前に撮影監督、編集者、クライアントを整合させるために生成されたクリップを活用します。

製品デモと解説動画

SaaSやハードウェアチームは、スタジオを予約することなく動画解説のプロトタイプを作れます。製品のコンテキスト、モーション、環境設定を説明し、LTX-2.3を使ってすでに洗練された音がするバックグラウンドBロールを生成します。ランディングページ、オンボーディングフロー、ピッチデッキに最適です。

ゲームトレーラーとシネマティックコンセプト

インディーゲームスタジオはトレーラーカットや雰囲気のあるコンセプト動画を素早くモックアップできます。同期音声はここで特に価値があります:葉音、剣の衝突音、鳥の羽ばたきを含む10秒の森の奇襲シーンは、無音の映像よりもはるかにゲームのトーンを伝えます。

音楽とムードビジュアライザー

ミュージシャンやlo-fiクリエイターは、ループするムードピースを生成できます。「窓に当たる雨、柔らかいピアノ、コーヒーカップへのスローズーム」は、ストリーミングビジュアライザー、ライブストリーム背景、ソーシャルポストに活用できます。

教育とナラティブコンテンツ

教育者やストーリーテラーは書かれたコンテンツに命を吹き込めます。絵本の著者はアニメーションの読み聞かせをプロトタイプ化でき、歴史チャンネルはストックフッテージをライセンスすることなくシーン設定の瞬間を映像化できます。

LTX-2.3の価格とAPIアクセス

LTX-2.3は解像度と尺に応じてスケールする透明な従量課金制を採用しています:

解像度5秒10秒15秒20秒
480p$0.10$0.20$0.30$0.40
720p$0.15$0.30$0.45$0.60
1080p$0.20$0.40$0.60$0.80

音声込みの完成した1080p 20秒クリップがわずか$0.80 — 一般的なストックフッテージのライセンス料やフリーランス動画制作コストのほんの一部です。

WaveSpeedAI APIでLTX-2.3を呼び出す

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video",
    {
        "prompt": "A golden retriever runs through a sunlit meadow, paws thumping the grass, birds chirping overhead, gentle wind",
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

開発者が重視するWaveSpeedAIの利点:

  • コールドスタートなし — 初回呼び出しのレイテンシーが定常状態のレイテンシーと同じ
  • REST API — 言語非依存、あらゆるスタックに組み込み可能
  • 従量課金制 — 最低利用額なし、アイドルGPU料金なし
  • プロダクショングレードの稼働率 — 高スループット推論ワークロード向けに構築

APIキーを取得してLTX-2.3での開発を始める

LTX-2.3 テキスト・トゥ・ビデオで最良の結果を得るためのヒント

  • 音声について明示的に記述する — モデルは自動的に音声を生成しますが、「雨」「ジャズピアノ」「群衆の歓声」「砂利の上の足音」などを明記すると、音声トラックのコントロールが強化されます。
  • 風景だけでなくモーションを描写する — カメラの動き(「スローダウンドリー」「ハンドヘルドトラッキングショット」)、被写体の動き、テンポのキューにより、静的な描写よりも映画的な出力が得られます。
  • 480pで反復し、1080pでレンダリングする — 最も安価なティアでプロンプトを調整し、構図が固まったら解像度をアップスケール。変更を意味あるものにするために固定シードを使用。
  • プロンプトを1つのビートに絞る — 10秒のクリップが運べるのは1〜2つのナラティブの瞬間のみ。複数シーンのスクリプトを1つのプロンプトに詰め込まないこと。
  • 長い動画はポストで編集する — 20秒を超えるコンテンツには、複数のLTX-2.3クリップを生成してNLEでつなぎ合わせる。
  • A/Bテストにはシードロックを使用する — 2つのプロンプトバリアントを比較する際は、同じseedを設定してノイズ分散からプロンプトの変更を切り離す。

既存のアートワークからアニメーションコンテンツを作成する場合は、LTX-2.3とLTX-2.3 イメージ・トゥ・ビデオを組み合わせて、キャンペーン全体でスタイルの一貫性を保ちましょう。

よくある質問

LTX-2.3 テキスト・トゥ・ビデオとは何ですか?

LTX-2.3は、テキストプロンプトから1回のパスで同期した映像と音声を生成するDiTベースのオーディオビデオ基盤モデルで、WaveSpeedAIのREST APIを通じて利用できます。

LTX-2.3のコストはいくらですか?

価格は5秒480pクリップの$0.10から始まり、20秒1080pクリップの$0.80までスケール — サブスクリプション不要で生成ごとに課金されます。

LTX-2.3はAPIで使えますか?

はい。LTX-2.3はコールドスタートなしでWaveSpeedAI REST APIから利用できます。プロンプト、解像度、尺を送信すると、音声が埋め込まれた動画URLが返されます。

LTX-2.3は自動的に音声を生成しますか?

はい — 音声は映像と同じモデルパスで同時に生成されます。モデルに視覚的なコンテキストから音声を推測させることも、より細かいコントロールのためにプロンプトで音を明示的に記述することもできます。

LTX-2.3の動画はどのくらいの長さにできますか?

各生成は5秒から20秒まで対応しています。より長い動画には、複数のクリップを生成してポストプロダクションで編集してつなぎ合わせてください。

今すぐLTX-2.3で映像と音声の生成を始めましょう

LTX-2.3は映像合成と音声制作を1つのコスト効率の高い高品質モデルに統合します。別々のツールを使い分けることなく、素早く完成したクリップを必要とするマーケター、クリエイター、開発者に最適です。

WaveSpeedAIでLTX-2.3 テキスト・トゥ・ビデオを試す →