
Add music, voiceovers, and sound effects to your videos with WaveSpeedAI’s audio-for-video tools.

MMaudio v2 produces synchronized audio from video or text inputs, ideal for adding soundtracks to videos when paired with video models. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

MMaudio v2 produces synchronized audio from video or text inputs, ideal for adding soundtracks to videos when paired with video models. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Kling Video-to-Audio auto-generates or extracts matching sound effects and audio tracks from video using KlingAI's audio generation model. Ready-to-use REST API, best performance, no coldstarts, affordable pricing.

Kling Text-to-Audio turns text prompts into custom sound effects for videos, games, and multimedia using KlingAI's audio model. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

HunyuanVideo-Foley generates realistic Foley and ambient audio from an uploaded video using a text prompt to describe desired sounds. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

ACE-Step Prompt-to-Audio creates music from simple prompts, auto-generating genre tags and lyrics for quick song creation. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Mirelo SFX V1.5 generates synchronized sound effects and audio for any video, producing synced SFX to enhance visuals. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

ElevenLabs Dubbing automatically translates and dubs video/audio content into different languages while preserving the original speakers' voices. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Mirelo SFX V1 Video-to-Audio generates synchronized sound effects from video input with text prompt guidance. Supports multiple sample generation and customizable duration. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.
Ejecuta cualquier modelo de la colección Audio for Video a través de una sola API REST. Paga por generación — sin suscripciones ni mínimos — con latencia líder del sector sobre una infraestructura con 99,9 % de disponibilidad.
Precio por llamada para cada modelo Audio for Video. El precio aparece en la página de cada modelo — sin recargos de plataforma.
La mayoría de los modelos de imagen Audio for Video terminan en menos de 2 segundos. Los modelos de vídeo y 3D son varias veces más rápidos que las alternativas autoalojadas.
Conmutación por error multirregión y reintentos automáticos mantienen tu tráfico de producción en línea — incluso durante caídas del proveedor.
Cada modelo tiene su propio precio por llamada listado en su página. Cobramos por generación exitosa, sin cuotas de suscripción ni mínimos.
Los modelos de imagen de esta colección suelen completarse en menos de 2 segundos. Los modelos de vídeo y 3D dependen de la duración y la resolución, pero suelen ser varias veces más rápidos que las ejecuciones autoalojadas.
Sí — cada cuenta recibe $1 de crédito gratis al registrarse, suficiente para probar la mayoría de los modelos Audio for Video sin tarjeta de crédito.
Las cuentas estándar tienen límites generosos de trabajos concurrentes. Los planes Enterprise ofrecen RPM personalizado, mayor concurrencia y capacidad dedicada — contacta con ventas para más detalles.
Navega por nuestro catálogo completo de modelos de IA de última generación — imagen, vídeo, 3D, audio, LLM y más.
wavespeed.ai/models →Integra IA en tus propias aplicaciones. API RESTful con bibliotecas de cliente — sin arranques en frío, paga por uso.
wavespeed.ai/docs →