Mirelo SFX V1.5 ビデオ・トゥ・ビデオがWaveSpeedAIで利用可能に

AI生成ビデオの世界には静かな問題があります—文字通り。SoraやVeo、Klingといったモデルが視覚的コンテンツ制作に革命をもたらした一方で、メディアに生命を吹き込む音声の次元が欠けたままのコンテンツを作成者に残してきました。本日、私たちはMirelo SFX V1.5 がWaveSpeedAIで利用可能になったことを発表します。これにより、サイレント動画を完全に同期された映像・音声体験に変換する力を得ることができます。

Mirelo SFX V1.5とは

Mirelo SFX V1.5は、ベルリンに拠点を置くMirelo AIによって開発された最先端のビデオ・トゥ・オーディオモデルです。同社は元AWS Labsの研究者CJ Simon-GabrielとFlorian Wenzelによって設立されました。両創業者は独特の経歴を持っています。CJはMax Planck InstituteのE機械学習の博士号を取得し、ETH Zurichでポスドクを務めた経歴があり、一方FlorianはHumboldt UniversityのE深層学習の博士号を取得し、以前Google Brainで働いていました。

このモデルは高度なマルチモーダルAIを使用してビデオコンテンツを分析し、完全に同期された音響効果を生成します。単に動きを検出するのではなく、コンテキストを理解しています。ビデオに砂利上の足音、窓を叩く雨、劇的な爆発が含まれているかどうかに関わらず、Mirelo SFX V1.5はコンテンツの視覚的リズムに合致するリアルで映画館品質のオーディオを作成します。

主な機能

AI駆動サウンド合成

このモデルは、ビデオフレームから直接オブジェクトの動き、タイミング、およびエネルギーに正確に一致する音響効果を生成します。単純なオーディオオーバーレイとは異なり、Mireloのアプローチはすべての音が画面で実際に起こっていることに対応していることを保証します。

シネマティック認識

Mirelo SFX V1.5は、画面上のアクション、インパクト、動きの強度、シーン遷移を検出し、プロフェッショナルに作成されたような効果を生成します。このモデルは軽いタップと強力な打撃の違いを理解し、それに応じてオーディオ特性を調整します。

ブラインドテストで優れた品質

独立した評価では、Mirelo SFX V1.5はKling Text-to-AudioやTencent-Hunyuan VideoFoleyといった人気の代替品と比較して、68.3%の勝率（タイ除外）および73.2%（タイ含む）を達成しました。ユーザーはリスニングテストでMireloの出力を67～77%の時間で優先しました。

プロダクション対応出力

このモデルは、多くの競合他社を悩ませるオーディオアーティファクト、歪み、または不要な音楽/音声リークなしに、クリーンなコンテキスト依存の音響効果を提供します。得られるものはプロフェッショナル使用に対応しています。

軽量で高速

Mireloのアーキテクチャは、優れた品質を提供しながらも、一般的な大規模言語モデルの50倍少ないコンピュート を必要とします。生成は最大で実時間の1.7倍 の速度で発生します。つまり、10秒のビデオは約6秒でその音響効果を生成できます。

複数のバリエーション

同じビデオの複数の音声バージョンを生成し、ポストプロダクション中に創造的なコントロールを得ることができます。最終カットに完璧なオーディオを選択する前に、異なるテイクを試聴できます。

実世界のユースケース

コンテンツ制作者およびソーシャルメディア

AI生成ビデオをサイレントクリップから視聴者を引き付けるコンテンツに変換します。TikTok、YouTubeショーツ、またはInstagram Reelsを作成しているかどうかに関わらず、同期されたオーディオは視聴者エンゲージメントと視聴時間を劇的に増加させます。

映画とアニメーション制作

フォーリー音を自動生成することでポストプロダクションワークフローを高速化します。プロフェッショナルなFoleyアーティストはヒーローモーメントに対しても価値があり続けていますが、Mirelo SFX V1.5はバックグラウンドオーディオと二次的な音響効果を処理でき、最も重要な創造的作業のためのリソースを解放できます。

ゲーム開発

ゲームシネマティクスとカットシーンのプロトタイプオーディオを迅速に生成します。カスタムオーディオ制作に投資する前に、意図された体験を利害関係者に伝えるプレースホルダー音を生成します。

マーケティングと広告

高価なサウンドデザインセッションなしにポーランドされたビデオ広告を作成します。電子商取引ブランドは適切な環境オーディオを備えた製品ビデオを制作でき、代理店はより迅速に創造的なコンセプトを反復することができます。

AIビデオ拡張

Sora、Veo、Kling、またはWanなどのAIビデオジェネレータを使用している場合、Mirelo SFX V1.5は完璧なコンパニオンとして機能します。ビジュアルを生成し、次に数秒で同期されたオーディオを追加します—単一のワークフローで映像・音声体験を完成させます。

WaveSpeedAIで始めましょう

WaveSpeedAIでMirelo SFX V1.5を使用することは簡単です：

ビデオをアップロード：ドラッグアンドドロップまたはURLを貼り付け（MP4、MOV形式をサポート）
オプションのプロンプトを追加：音響コンテキストを説明（例：「木の上の柔らかい足音」、「金属的なカン」、「雨の通り周辺音」）
サンプル数を設定：創造的な柔軟性のための複数のバリエーションを生成
実行をクリック：数秒で同期されたオーディオを受け取ります

モデルは最大10秒のビデオを処理し、典型的な生成時間は実行ごとに6～12秒です。最高の結果を得るには、明確で高いコントラストの動きを持つ短い、フォーカスされたクリップを使用してください。

価格設定

Mirelo SFX V1.5は予測可能で手頃な価格設定を提供します：

0～5秒：最小料金適用（サンプル数×$0.035）
5～10秒：実際の期間で請求（サンプル数×期間×$0.007）
実行ごとの最大：サンプル数×$0.07

最高の結果を得るための専門家向けヒント

視覚と音声の最強の整列のために、フォーカスされたアクションを持つ10秒未満のクリップを使用します
「雨の通り、遠い雷」のようなコンテキストプロンプトを含めて、より微妙な結果を得ます
最終オーディオを選択する前に、バリエーションを試聴するために3～5つのサンプルを生成します
シード値を調整して、同期を維持しながらもタイミングと音色の微妙な変更を実現します

なぜWaveSpeedAI？

WaveSpeedAIでMirelo SFX V1.5を実行する場合、以下から利益を得られます：

コールドスタートなし：リクエストは、モデル初期化の待機なしに即座に処理されます
高速推論：最適化されたインフラストラクチャが迅速な結果を提供します
手頃な価格設定：透明な1秒あたりの請求で、使用した分だけお支払いください
シンプルなAPI統合：当社のREST APIを使用して、アプリケーションにビデオ・トゥ・オーディオ機能を統合します

オーディオビジュアルAIの未来

Mirelo SFX V1.5のリリースは、AI生成ビデオコンテンツを制限してきたオーディオギャップを閉じることにおける大きなマイルストーンを表しています。Index VenturesとAndreessen Horowitz からの最近の4,100万ドルのシードラウンドに支援されて、Mireloはaiサウンド生成で可能なことの境界を押し続けています。

AIビデオモデルはますます洗練されるにつれて、同期されたオーディオの需要は成長し続けるでしょう。Mirelo SFX V1.5は、サイレントAIビデオを完全なマルチメディア体験に変換し、この曲線の前で留まるようにクリエイターを配置します。