Memperkenalkan Mirelo AI Sfx V1 Video To Audio di WaveSpeedAI

Mirelo SFX V1 Video-to-Audio: Efek Suara Tersinkronisasi Bertenaga AI untuk Video Apa Pun

Mirelo SFX V1 Video-to-Audio adalah model pembuatan suara AI terbaru di WaveSpeedAI yang menghasilkan efek suara tersinkronisasi langsung dari input video, mengubah rekaman tanpa suara menjadi audio imersif yang sesuai dengan adegan. Baik Anda seorang sineas yang mengisi foley yang hilang, kreator konten yang memoles video format pendek, atau pengembang yang mengotomatisasi produksi audio secara massal, model ini menghadirkan audio realistis yang sesuai dengan apa yang terjadi di layar — tanpa biaya atau waktu tunggu desain suara tradisional.

Desain suara telah lama menjadi salah satu bagian paling memakan waktu dalam produksi video. Merekam foley, mencari efek stok, dan menyelaraskan setiap suara ke gambar secara manual bisa menghabiskan berjam-jam per menit konten jadi. Mirelo SFX V1 meringkas alur kerja tersebut menjadi satu panggilan API, memungkinkan Anda beralih dari video mentah ke audio yang sudah dicampur hanya dalam hitungan detik.

Coba Mirelo SFX V1 Video-to-Audio di WaveSpeedAI →

Cara Kerja Mirelo SFX V1 Video-to-Audio

Mirelo SFX V1 Video-to-Audio menganalisis konten visual dari klip yang diunggah — aksi di layar, lingkungan, gerakan, dan ritme — lalu menghasilkan audio yang tersinkronisasi dengan apa yang dilihatnya. Model ini menerima file video atau URL sebagai satu-satunya input yang diperlukan, dan secara opsional menerima prompt teks untuk mengarahkan jenis suara yang Anda inginkan.

Spesifikasi teknis yang penting bagi para pengembang:

Input: URL video atau unggahan langsung
Output: Audio tersinkronisasi dengan timing video
Durasi: 2 hingga 10 detik per proses
Pembuatan multi-sampel: 2 variasi audio secara default, dapat dikonfigurasi hingga beberapa sampel per permintaan
Reproduksibilitas: Parameter seed untuk output yang deterministik

Yang membedakan Mirelo SFX V1 dari model teks-ke-audio generik adalah pengondisian video. Alih-alih menghasilkan suara hanya dari deskripsi, model ini mendasarkan outputnya pada frame aktual klip Anda — artinya langkah kaki jatuh pada ketukan yang tepat, cipratan air terdengar saat sesuatu masuk ke air, dan tekstur ambien sesuai dengan lingkungan yang terlihat.

Fitur Utama Mirelo SFX V1 Video-to-Audio

Pembuatan suara tersinkronisasi dengan video — Model ini mengurai aksi di layar dan menghasilkan audio yang selaras dengan timing visual, menghilangkan pekerjaan sinkronisasi frame-per-frame manual yang diperlukan foley tradisional.
Panduan prompt teks opsional — Arahkan audio dengan bahasa alami (misalnya, “hujan di kaca jendela” atau “suasana kafe yang ramai”) saat adegan ambigu atau saat Anda menginginkan arah kreatif tertentu.
Beberapa sampel per proses — Hasilkan beberapa variasi audio dalam satu panggilan API, lalu pilih yang terbaik melalui A/B tanpa perlu mengirim ulang dan membayar pekerjaan lain.
Durasi yang dapat disesuaikan hingga 10 detik — Konfigurasikan dengan tepat berapa lama audio yang dihasilkan, ditagih per detik per sampel.
Output yang dapat direproduksi melalui seed — Kunci hasil tertentu dengan parameter seed, berguna untuk pengeditan iteratif atau menjaga konsistensi dalam sebuah seri.
REST API tanpa cold start — Di-hosting di infrastruktur inferensi WaveSpeedAI, sehingga latensi panggilan pertama tetap rendah dan pekerjaan batch berjalan secara prediktabel.

Kasus Penggunaan Terbaik untuk Mirelo SFX V1 Video-to-Audio

Foley Pasca-Produksi Film dan Video

Sineas independen dan studio pasca-produksi dapat menggunakan Mirelo SFX V1 untuk menghasilkan foley realistis untuk rekaman tanpa suara atau adegan yang direkam dengan buruk. Suara langkah kaki, pintu ditutup, gesekan kain, dan nada ruangan ambien — yang semuanya secara tradisional memerlukan seniman foley dan sesi rekaman — kini dapat dirancang dalam hitungan detik dan disempurnakan dalam editan Anda. Ini sangat berharga bagi produksi indie yang bekerja tanpa tim suara khusus.

Konten Media Sosial dalam Skala Besar

Kreator video format pendek di TikTok, Reels, dan Shorts tahu bahwa audio mendorong keterlibatan. Klip tanpa suara terlewati begitu saja. Dengan Mirelo SFX V1, para kreator dapat memproses secara massal puluhan klip, menghasilkan efek suara yang disesuaikan dengan setiap adegan daripada mengandalkan perpustakaan stok yang sama dan sudah terlalu sering digunakan. Fitur multi-sampel sangat berguna di sini — pilih variasi yang paling berdampak bagi algoritma.

Pengembangan Game dan Media Interaktif

Pengembang game dapat memasukkan rekaman tangkapan dalam game ke Mirelo SFX V1 untuk membuat prototipe efek suara untuk mekanik baru, lingkungan, atau cutscene. Alih-alih menunggu desainer suara untuk build tahap awal, pengembang dapat menghasilkan audio placeholder yang sudah terasa berkualitas produksi, lalu melakukan iterasi dari sana.

Iklan dan Video Pemasaran Produk

Tim pemasaran yang memproduksi video produk dalam jumlah besar, demo reel, dan iklan sosial dapat menggunakan Mirelo SFX V1 untuk menambahkan audio yang halus tanpa memesan waktu studio. Video unboxing yang sunyi menjadi pengalaman taktil dengan suara kemasan berkerut, klik tombol, dan suara penanganan produk — semuanya dihasilkan untuk sesuai dengan aksi di layar.

Pipeline Otomatisasi Konten

Bagi tim yang menjalankan pipeline video otomatis — pembuatan klip berita, penjelasan yang diproduksi AI, pemulihan rekaman arsip — Mirelo SFX V1 terintegrasi sebagai panggilan REST API. Gabungkan dengan model teks-ke-video dan gambar-ke-video WaveSpeedAI untuk membangun alur kerja produksi video-dengan-audio yang sepenuhnya otomatis.

Peningkatan Rekaman Arsip dan Film Bisu

Memulihkan atau menggunakan kembali rekaman arsip bisu? Mirelo SFX V1 dapat menambahkan audio atmosferik yang menghidupkan klip lama — suasana jalanan bersejarah, mesin, cuaca — tanpa pengeditan yang invasif.

Video Edukatif dan Pelatihan

Konten instruksional sering kali memiliki audio yang lemah atau tidak ada dalam segmen demonstrasi. Mirelo SFX V1 dapat mengisi celah tersebut dengan suara lingkungan dan aksi yang sesuai, membuat video pelatihan lebih menarik tanpa perlu melakukan pengambilan ulang.

Harga dan Akses API Mirelo SFX V1 Video-to-Audio

Mirelo SFX V1 ditagih $0,007 per detik per sampel, dengan durasi minimum yang dapat ditagih 2 detik dan maksimum 10 detik per proses.

Durasi	1 Sampel	2 Sampel	4 Sampel
2d	$0,014	$0,028	$0,056
5d	$0,035	$0,070	$0,140
10d	$0,070	$0,140	$0,280

Total biaya = durasi yang ditagih × num_samples × $0,007

Proses tipikal 5 detik, 2 sampel berharga $0,07 — cukup terjangkau untuk alur kerja produksi bervolume tinggi.

Contoh API

Memanggil Mirelo SFX V1 melalui WaveSpeedAI Python SDK:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "video": "https://interactive-examples.mdn.mozilla.net/media/cc0-videos/flower.mp4",
    "num_samples": 2,
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/mirelo-ai/sfx-v1/video-to-audio", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Infrastruktur yang di-hosting WaveSpeedAI berarti tidak ada cold start, tidak ada penyediaan GPU, dan penagihan berdasarkan penggunaan — Anda hanya membayar untuk apa yang Anda hasilkan.

Dapatkan kunci API Anda dan mulai membangun →

Tips untuk Hasil Terbaik dengan Mirelo SFX V1 Video-to-Audio

Kosongkan prompt saat video sudah menjelaskan sendiri. Model ini dapat menyimpulkan audio yang kuat dari visual yang jelas — teks tambahan terkadang dapat terlalu mengarahkan hasilnya.
Gunakan prompt untuk memperjelas makna. Untuk adegan yang dapat mengimplikasikan beberapa soundscape (misalnya, pengambilan gambar dalam ruangan yang bisa berupa perpustakaan atau kafe), prompt yang eksplisit menghasilkan hasil yang lebih akurat.
Hasilkan 3–4 sampel untuk pekerjaan kreatif. Variasi meningkatkan peluang menemukan kecocokan yang sempurna, dan biaya per sampel tambahan sangat minimal.
Kunci seed setelah menemukan yang terbaik. Reproduksibilitas penting saat melakukan iterasi pada proyek yang lebih panjang atau mencocokkan audio di beberapa potongan.
Cocokkan durasi dengan jendela aksi utama. Jika peristiwa suara terpenting berlangsung selama 3 detik, hasilkan 3 detik daripada 10 detik penuh — Anda akan mendapatkan output yang lebih fokus dan membayar lebih sedikit.
Pastikan URL video dapat diakses secara publik jika Anda meneruskan tautan daripada mengunggah langsung.

Pertanyaan yang Sering Diajukan

Apa itu Mirelo SFX V1 Video-to-Audio?

Mirelo SFX V1 Video-to-Audio adalah model AI di WaveSpeedAI yang menghasilkan efek suara tersinkronisasi dari input video, dengan panduan prompt teks opsional untuk kontrol kreatif.

Berapa biaya Mirelo SFX V1 Video-to-Audio?

Mirelo SFX V1 ditagih $0,007 per detik per sampel. Pembuatan 5 detik, 2 sampel berharga $0,07. Durasi yang dapat ditagih berkisar dari 2 hingga 10 detik.

Bisakah saya menggunakan Mirelo SFX V1 Video-to-Audio melalui API?

Ya. Mirelo SFX V1 tersedia melalui REST API WaveSpeedAI tanpa cold start. Gunakan Python SDK atau klien HTTP apa pun untuk memanggil mirelo-ai/sfx-v1/video-to-audio dengan video dan parameter opsional Anda.

Berapa lama audio yang dapat dihasilkan?

Durasi audio dapat dikonfigurasi dari 2 hingga 10 detik per proses. Untuk audio yang lebih panjang, segmentasikan video Anda dan jalankan beberapa proses pembuatan.

Apakah Mirelo SFX V1 memerlukan prompt teks?

Tidak. Video adalah satu-satunya input yang diperlukan — model dapat menyimpulkan audio semata-mata dari konten visual. Prompt bersifat opsional dan berguna untuk mengarahkan hasil menuju suara atau gaya tertentu.

Mulai Menghasilkan Audio Tersinkronisasi dengan Mirelo SFX V1

Berhenti mencari dan menyinkronkan efek suara secara manual. Mirelo SFX V1 Video-to-Audio memberikan Anda audio yang sesuai dengan adegan dalam hitungan detik, dengan REST API sederhana dan harga bayar-per-penggunaan yang dapat diskalakan dari satu kreator hingga pipeline produksi penuh.