MMAudio V2がWaveSpeedAIで公開:ビデオとテキスト入力に対応したマルチモーダルオーディオ生成
WaveSpeedAIで利用可能になったMMAudio V2: ビデオとテキスト入力用のマルチモーダルオーディオ生成
MMAudio V2は、ビデオとテキスト入力の両方から高品質で同期されたオーディオを生成するために設計された最先端モデルです。この進歩は、マルチメディアコンテンツ作成に新たな可能性をもたらし、生成メディアのリアリティと没入感を向上させます。
MMAudio V2について
MMAudio V2は、ビジュアルコンテンツまたはテキスト説明とシームレスに一致するオーディオを合成できるマルチモーダルオーディオ生成モデルです。ビデオにリアルな効果音を追加したい場合でも、テキストプロンプトからオーディオを生成したい場合でも、MMAudio V2は精度と品質で応えます。
主な機能
- マルチモーダル入力サポート: ビデオとテキスト入力の両方を受け入れ、オーディオ生成タスクの柔軟性を提供します。
- 高品質のオーディオ出力: 44.1kHzのサンプリングレートでオーディオを生成し、明瞭さと詳細性を確保します。
- 同期されたオーディオビジュアル出力: 条件付き同期モジュールを使用して、オーディオをビデオフレームと正確に一致させます。
- 効率的なパフォーマンス: 約1.23秒で8秒のオーディオクリップを生成し、迅速なコンテンツ作成を促進します。
- コンパクトなモデルサイズ: 1億5,700万のパラメータで、MMAudio V2は品質を損なわずにパフォーマンス向上用に最適化されています。
技術的概要
MMAudio V2は、大規模なテキストオーディオデータとビデオ入力を統合した新しいマルチモーダルジョイントトレーニングフレームワークを採用し、セマンティックアライメントとオーディオビジュアル同期を強化しています。モデルのアーキテクチャには以下が含まれます:
- フロー予測ネットワーク: 入力モダリティに条件付けされたオーディオフローを予測します。
- ビジュアル特徴抽出器: SynchformerおよびCLIPモデルを組み込んで、意味のあるビジュアル特徴を抽出します。
- 変分オートエンコーダ(VAE): オーディオデータの潜在表現を処理します。
- ボコーダー: 潜在オーディオ表現を波形出力に変換します。
これらのコンポーネントが調和して機能し、入力データに対して高品質かつ文脈的に関連のあるオーディオを生成します。
応用例
MMAudio V2の機能は、幅広いアプリケーションに適しています:
- ビデオポストプロダクション: サイレント動画にリアルなサウンドスケープを追加するか、既存のオーディオトラックを強化します。
- ゲーム開発: ゲーム内イベントや環境に応答する没入感のあるオーディオエフェクトを生成します。
- 仮想現実(VR)および拡張現実(AR): ユーザーの操作に適応する動的なオーディオ体験を作成します。
- コンテンツ作成: テキストスクリプトから直接ポッドキャスト、オーディオブック、またはその他のオーディオコンテンツを作成します。
はじめに
MMAudio V2の機能を探索するには、以下のWaveSpeedAIモデルストアにアクセスして、ビデオまたはテキスト入力を使用してMMAudio V2を試してください。

