Einführung von Mirelo AI Sfx V1 Video zu Audio auf WaveSpeedAI

Mirelo SFX V1 Video-to-Audio: KI-gestützte synchronisierte Soundeffekte für jedes Video

Mirelo SFX V1 Video-to-Audio ist ein neues KI-Klangerzeugungsmodell auf WaveSpeedAI, das synchronisierte Soundeffekte direkt aus Videoinhalten erzeugt und stummes Filmmaterial in immersives, szenenabgestimmtes Audio verwandelt. Ob Sie als Filmemacher fehlendes Foley ergänzen, als Content Creator Kurzvideos verfeinern oder als Entwickler die Audioproduktion im großen Maßstab automatisieren möchten – dieses Modell liefert realistisches Audio, das zum Bildgeschehen passt, ohne die Kosten oder Vorlaufzeiten traditionellen Sounddesigns.

Sounddesign war schon immer einer der zeitaufwändigsten Teile der Videoproduktion. Foley aufzunehmen, Archiveffekte zu beschaffen und jeden Klang manuell mit dem Bild abzugleichen, kann Stunden pro Minute Fertigmaterial in Anspruch nehmen. Mirelo SFX V1 reduziert diesen Workflow auf einen einzigen API-Aufruf und ermöglicht es Ihnen, in Sekunden vom Rohvideo zu fertigem Audio zu gelangen.

Mirelo SFX V1 Video-to-Audio auf WaveSpeedAI ausprobieren →

So funktioniert Mirelo SFX V1 Video-to-Audio

Mirelo SFX V1 Video-to-Audio analysiert den visuellen Inhalt eines hochgeladenen Clips – die Handlung auf dem Bildschirm, Umgebung, Bewegung und Tempo – und erzeugt Audio, das mit dem Gesehenen synchronisiert ist. Das Modell akzeptiert eine Video-URL oder einen direkten Upload als einzige Pflichtangabe und nimmt optional einen Textprompt entgegen, um die gewünschte Klangrichtung vorzugeben.

Die technischen Spezifikationen, die Entwickler interessieren:

Eingabe: Video-URL oder direkter Upload
Ausgabe: Mit dem Video-Timing synchronisiertes Audio
Dauer: 2 bis 10 Sekunden pro Durchlauf
Mehrfach-Sampling: Standardmäßig 2 Audiovariationen, konfigurierbar bis zu mehreren Samples pro Anfrage
Reproduzierbarkeit: Seed-Parameter für deterministische Ausgaben

Was Mirelo SFX V1 von generischen Text-zu-Audio-Modellen unterscheidet, ist die Video-Konditionierung. Anstatt Klang allein aus einer Beschreibung zu erzeugen, verankert das Modell seine Ausgabe in den tatsächlichen Frames Ihres Clips – was bedeutet, dass Schritte genau auf dem richtigen Beat landen, Platschen erklingt, wenn etwas ins Wasser taucht, und Umgebungstexturen zur sichtbaren Umgebung passen.

Hauptmerkmale von Mirelo SFX V1 Video-to-Audio

Videosynchronisierte Klangerzeugung — Das Modell analysiert die Handlung auf dem Bildschirm und erzeugt Audio, das mit dem visuellen Timing übereinstimmt – ohne manuelles Frame-für-Frame-Sync-Arbeit, wie sie traditionelles Foley erfordert.
Optionale Textprompt-Steuerung — Lenken Sie das Audio mit natürlicher Sprache (z. B. „Regen auf Fensterglas” oder „belebtes Café-Ambiente”), wenn die Szene mehrdeutig ist oder Sie eine bestimmte kreative Richtung wünschen.
Mehrere Samples pro Durchlauf — Generieren Sie mehrere Audiovariationen in einem einzigen API-Aufruf und wählen Sie dann im A/B-Verfahren die beste Version aus, ohne einen neuen Job zu starten und dafür zu zahlen.
Einstellbare Dauer bis zu 10 Sekunden — Konfigurieren Sie genau, wie lang das generierte Audio sein soll – abgerechnet pro Sekunde pro Sample.
Reproduzierbare Ausgaben per Seed — Fixieren Sie ein bestimmtes Ergebnis mit dem Seed-Parameter, nützlich für iteratives Editing oder zur Konsistenzsicherung über eine Serie hinweg.
REST-API ohne Cold Starts — Gehostet auf WaveSpeedAIs Inferenzinfrastruktur, sodass die Latenz beim ersten Aufruf niedrig bleibt und Batch-Jobs zuverlässig ablaufen.

Beste Anwendungsfälle für Mirelo SFX V1 Video-to-Audio

Foley in der Film- und Videoproduktion

Unabhängige Filmemacher und Postproduktionsstudios können Mirelo SFX V1 nutzen, um realistisches Foley für stummes Filmmaterial oder schlecht aufgenommene Szenen zu erzeugen. Schrittgeräusche, Türgeräusche, Stoffrascheln und Raumton – alles, was traditionell einen Foley-Künstler und eine Aufnahmesession erfordert – kann nun in Sekunden entworfen und im Schnitt verfeinert werden. Das ist besonders wertvoll für Indie-Produktionen ohne dediziertes Soundteam.

Kurzform-Video-Creator auf TikTok, Reels und Shorts wissen, dass Audio das Engagement antreibt. Stumme Clips werden weggescrollt. Mit Mirelo SFX V1 können Creator Dutzende von Clips stapelweise verarbeiten und maßgeschneiderte Soundeffekte erzeugen, die zu jeder Szene passen – statt auf dieselbe überstrapazierte Stockbibliothek zurückzugreifen. Die Multi-Sample-Funktion ist hier besonders nützlich – wählen Sie die Variation, die den Algorithmus am stärksten anspricht.

Spieleentwicklung und Interaktive Medien

Spieleentwickler können In-Game-Aufnahmen in Mirelo SFX V1 einspeisen, um Soundeffekte für neue Mechaniken, Umgebungen oder Zwischensequenzen zu prototypisieren. Anstatt in frühen Entwicklungsphasen auf einen Sound-Designer warten zu müssen, können Entwickler Platzhalter-Audio generieren, das sich bereits produktionsreif anfühlt, und von dort aus iterieren.

Werbung und Produktmarketing-Videos

Marketingteams, die große Mengen an Produktvideos, Demo-Reels und Social-Ads produzieren, können Mirelo SFX V1 nutzen, um poliertes Audio hinzuzufügen, ohne Studiozeit zu buchen. Ein stummes Unboxing-Video wird zu einem taktilen Erlebnis mit Verpackungsknistern, Klicken von Knöpfen und Handhabungsgeräuschen – alles generiert, um zur Bildschirmhandlung zu passen.

Content-Automatisierungspipelines

Für Teams, die automatisierte Videopipelines betreiben – Nachrichtenclip-Erzeugung, KI-produzierte Erklärvideos, Archivrestaurierung – integriert sich Mirelo SFX V1 als REST-API-Aufruf. Kombinieren Sie es mit WaveSpeedAIs Text-zu-Video- und Bild-zu-Video-Modellen, um vollautomatisierte Video-mit-Audio-Produktions-Workflows aufzubauen.

Archivmaterial und Stummfilm-Aufwertung

Möchten Sie stummes Archivmaterial restaurieren oder neu verwenden? Mirelo SFX V1 kann atmosphärisches Audio hinzufügen, das alten Clips Leben einhaucht – historisches Straßenambiente, Maschinen, Wetter – ohne invasive Bearbeitung.

Bildungs- und Trainingsvideos

Anleitungsinhalte haben in Demonstrationssegmenten oft schwaches oder fehlendes Audio. Mirelo SFX V1 kann diese Lücken mit passenden Umgebungs- und Aktionsklängen füllen und Trainingsvideos ansprechender machen – ohne Neuaufnahmen.

Preise und API-Zugang für Mirelo SFX V1 Video-to-Audio

Mirelo SFX V1 wird mit 0,007 $ pro Sekunde pro Sample abgerechnet, mit einer Mindestabrechnung von 2 Sekunden und maximal 10 Sekunden pro Durchlauf.

Dauer	1 Sample	2 Samples	4 Samples
2 s	0,014 $	0,028 $	0,056 $
5 s	0,035 $	0,070 $	0,140 $
10 s	0,070 $	0,140 $	0,280 $

Gesamtkosten = abgerechnete Dauer × Anzahl Samples × 0,007 $

Ein typischer 5-Sekunden-Durchlauf mit 2 Samples kostet 0,07 $ – erschwinglich genug für Hochvolumen-Produktions-Workflows.

API-Beispiel

Aufruf von Mirelo SFX V1 über das WaveSpeedAI Python SDK:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "video": "https://interactive-examples.mdn.mozilla.net/media/cc0-videos/flower.mp4",
    "num_samples": 2,
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/mirelo-ai/sfx-v1/video-to-audio", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

WaveSpeedAIs gehostete Infrastruktur bedeutet keine Cold Starts, keine GPU-Bereitstellung und nutzungsbasierte Abrechnung – Sie zahlen nur für das, was Sie generieren.

Holen Sie sich Ihren API-Schlüssel und legen Sie los →

Tipps für beste Ergebnisse mit Mirelo SFX V1 Video-to-Audio

Lassen Sie den Prompt leer, wenn das Video für sich selbst spricht. Das Modell leitet starkes Audio aus klaren Visuals ab – zusätzlicher Text kann das Ergebnis manchmal übersteuern.
Nutzen Sie den Prompt zur Disambiguierung. Bei Szenen, die mehrere Klanglandschaften implizieren könnten (z. B. eine Innenaufnahme, die eine Bibliothek oder ein Café sein könnte), liefern explizite Prompts genauere Ergebnisse.
Generieren Sie 3–4 Samples bei kreativer Arbeit. Variation erhöht die Chance, ein perfektes Match zu finden, und die Kosten pro zusätzlichem Sample sind minimal.
Fixieren Sie den Seed, sobald Sie einen Favoriten gefunden haben. Reproduzierbarkeit ist wichtig beim Iterieren an einem längeren Projekt oder beim Abgleichen von Audio über mehrere Schnitte hinweg.
Passen Sie die Dauer an das wichtigste Aktionsfenster an. Wenn das wichtigste Klangereignis 3 Sekunden lang ist, generieren Sie 3 Sekunden statt der vollen 10 – Sie erhalten fokussiertere Ausgabe und zahlen weniger.
Stellen Sie sicher, dass Video-URLs öffentlich zugänglich sind, wenn Sie Links übergeben statt direkt hochzuladen.

Häufig gestellte Fragen

Was ist Mirelo SFX V1 Video-to-Audio?

Mirelo SFX V1 Video-to-Audio ist ein KI-Modell auf WaveSpeedAI, das synchronisierte Soundeffekte aus Videoinhalten generiert, mit optionaler Textprompt-Steuerung für kreative Kontrolle.

Was kostet Mirelo SFX V1 Video-to-Audio?

Mirelo SFX V1 wird mit 0,007 $ pro Sekunde pro Sample abgerechnet. Eine 5-Sekunden-Generierung mit 2 Samples kostet 0,07 $. Die abrechenbare Dauer reicht von 2 bis 10 Sekunden.

Kann ich Mirelo SFX V1 Video-to-Audio über die API nutzen?

Ja. Mirelo SFX V1 ist über WaveSpeedAIs REST-API ohne Cold Starts verfügbar. Verwenden Sie das Python SDK oder einen beliebigen HTTP-Client, um mirelo-ai/sfx-v1/video-to-audio mit Ihrem Video und optionalen Parametern aufzurufen.

Wie lang kann das generierte Audio sein?

Die Audiodauer ist von 2 bis 10 Sekunden pro Durchlauf konfigurierbar. Für längeres Audio segmentieren Sie Ihr Video und führen Sie mehrere Generierungen durch.

Benötigt Mirelo SFX V1 einen Textprompt?

Nein. Das Video ist die einzige Pflichtangabe – das Modell kann Audio rein aus dem visuellen Inhalt ableiten. Prompts sind optional und nützlich, um das Ergebnis in Richtung eines bestimmten Klangs oder Stils zu lenken.

Beginnen Sie mit der Erzeugung synchronisierten Audios mit Mirelo SFX V1

Hören Sie auf, Soundeffekte manuell zu beschaffen und zu synchronisieren. Mirelo SFX V1 Video-to-Audio liefert Ihnen szenenabgestimmtes Audio in Sekunden, mit einer einfachen REST-API und nutzungsbasierter Preisgestaltung, die vom einzelnen Creator bis zur vollständigen Produktionspipeline skaliert.