
Add music, voiceovers, and sound effects to your videos with WaveSpeedAI’s audio-for-video tools.

MMaudio v2 produces synchronized audio from video or text inputs, ideal for adding soundtracks to videos when paired with video models. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Kling Video-to-Audio auto-generates or extracts matching sound effects and audio tracks from video using KlingAI's audio generation model. Ready-to-use REST API, best performance, no coldstarts, affordable pricing.

Kling Text-to-Audio turns text prompts into custom sound effects for videos, games, and multimedia using KlingAI's audio model. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

HunyuanVideo-Foley generates realistic Foley and ambient audio from an uploaded video using a text prompt to describe desired sounds. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

ACE-Step Prompt-to-Audio creates music from simple prompts, auto-generating genre tags and lyrics for quick song creation. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Mirelo SFX V1.5 generates synchronized sound effects and audio for any video, producing synced SFX to enhance visuals. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

ElevenLabs Dubbing automatically translates and dubs video/audio content into different languages while preserving the original speakers' voices. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Mirelo SFX V1 Video-to-Audio generates synchronized sound effects from video input with text prompt guidance. Supports multiple sample generation and customizable duration. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.
Audio for Video コレクションのすべてのモデルを単一の REST API で実行できます。生成ごとに課金 — サブスクなし、最低料金なし — で、稼働率 99.9% のインフラ上の業界トップクラスのレイテンシを提供します。
各 Audio for Video モデルにコールごとの料金が設定されています。料金は各モデルのページに表示され、プラットフォーム手数料はかかりません。
ほとんどの Audio for Video 画像モデルは 2 秒以内に完了します。動画や 3D モデルはセルフホスト構成より数倍高速です。
マルチリージョンのフェイルオーバーと自動リトライで、プロバイダー障害時にも本番トラフィックを維持します。
各モデルにはモデルページ上にコール単価が記載されています。成功した生成ごとに課金され、サブスクリプション料金や最低料金はありません。
このコレクションの画像モデルは通常 2 秒以内に完了します。動画や 3D モデルは長さや解像度に依存しますが、セルフホスト実行より数倍高速なことが多いです。
はい — すべてのアカウントは登録時に 1 ドル分の無料クレジットを取得でき、クレジットカードなしでほとんどの Audio for Video モデルを試すのに十分です。
標準アカウントには十分な同時実行ジョブ枠があります。Enterprise プランではカスタム RPM、より高い同時実行性、専用キャパシティを提供します — 詳細は営業へお問い合わせください。