Memperkenalkan Inworld 1.5 Mini Text To Speech di WaveSpeedAI

Memperkenalkan Inworld 1.5 Mini Text-to-Speech di WaveSpeedAI

Suara kini menjadi antarmuka utama untuk aplikasi AI. Dari agen percakapan hingga game interaktif, kemampuan mengubah teks menjadi ucapan yang terdengar alami — secara instan dan terjangkau — bukan lagi sekadar fitur tambahan. Ini sudah menjadi keharusan. WaveSpeedAI dengan bangga mengumumkan ketersediaan Inworld 1.5 Mini, model text-to-speech yang sangat cepat dan sangat terjangkau, yang menghadirkan sintesis ucapan multibahasa alami hanya dengan $0,005 per 1.000 karakter.

Dibangun oleh Inworld AI — tim di balik model peringkat #1 di Artificial Analysis TTS Leaderboard — Inworld 1.5 Mini membawa sintesis suara berkualitas produksi kepada para pengembang yang membutuhkan kecepatan dan skala tanpa menguras anggaran.

Apa itu Inworld 1.5 Mini?

Inworld 1.5 Mini adalah varian ringan dari keluarga TTS-1.5 Inworld, yang dirancang khusus untuk aplikasi yang sensitif terhadap latensi dan bervolume tinggi. Sementara saudaranya, Inworld 1.5 Max, mengoptimalkan kealamian dan ekspresi maksimum, Mini mengutamakan waktu respons yang sangat cepat — mencapai latensi waktu-ke-audio-pertama P90 di bawah 130ms, yang 4x lebih cepat dari model generasi sebelumnya.

Meski arsitekturnya ringkas, Mini tidak mengorbankan kualitas. Generasi TTS-1.5 menghadirkan ekspresivitas 30% lebih tinggi dan pengurangan tingkat kesalahan kata sebesar 40% dibandingkan model Inworld sebelumnya. Hasilnya adalah model yang terdengar sangat alami sekaligus merespons hampir secara instan — menjadikannya ideal untuk pengalaman interaktif real-time di mana setiap milidetik sangat berarti.

Fitur Utama

Latensi Ultra-Rendah

Latensi waktu-ke-audio-pertama P90 di bawah 130ms — termasuk model TTS tercepat yang tersedia saat ini
4x lebih cepat dari generasi Inworld sebelumnya
Dioptimalkan untuk pipeline percakapan real-time dan aplikasi interaktif

65+ Suara Multibahasa dalam 15 Bahasa

Inworld 1.5 Mini hadir dengan perpustakaan suara yang beragam mencakup:

Bahasa Inggris — 25 suara berbeda mulai dari narator profesional hingga suara karakter ekspresif
Bahasa Mandarin — 4 suara termasuk gaya tenang, energetik, dan naratif
Jepang, Korea — Suara penutur asli dengan intonasi alami
Eropa — Prancis, Jerman, Spanyol, Portugis, Italia, Belanda, Polandia, Rusia
Asia Selatan & Timur Tengah — Hindi, Ibrani, Arab

Setiap suara memiliki kepribadiannya sendiri — dari nada kaya dan intim Blake yang ideal untuk audiobook, hingga kualitas robot mengancam Dominus yang sempurna untuk penjahat game, hingga irama menenangkan Luna yang cocok untuk konten meditasi.

Kontrol yang Presisi

Penyesuaian kecepatan bicara — Percepat untuk pengumuman, perlambat untuk narasi dramatis
Kontrol temperatur — Nilai lebih rendah untuk output yang konsisten dan dapat diprediksi; nilai lebih tinggi untuk pengiriman yang lebih dinamis dan ekspresif
Set parameter sederhana — Hanya teks, suara, kecepatan, dan temperatur. Tidak diperlukan konfigurasi yang rumit.

Harga yang Tak Tertandingi

Dengan harga $0,005 per 1.000 karakter, Inworld 1.5 Mini adalah salah satu solusi TTS paling terjangkau di pasar — hingga 25x lebih hemat dibandingkan model pesaing dengan tingkat kualitas yang sebanding. Jumlah karakter dibulatkan ke atas ke 1.000 terdekat, dengan penagihan yang transparan dan dapat diprediksi.

Karakter	Biaya
Hingga 1.000	$0,005
Hingga 5.000	$0,025
Hingga 10.000	$0,050

Kasus Penggunaan di Dunia Nyata

AI Percakapan dan Agen Suara

Latensi di bawah 130ms dari Inworld 1.5 Mini menjadikannya pilihan alami untuk chatbot berbasis suara, agen layanan pelanggan, dan asisten virtual. Pengguna merasakan percakapan yang lancar dan alami tanpa jeda canggung yang menghantui sistem TTS yang lebih lambat. Perpustakaan suara multibahasa berarti Anda dapat melakukan deployment secara global sejak hari pertama.

Gaming dan Hiburan Interaktif

Tenagai dialog NPC, narasi dalam game, dan suara karakter dengan sintesis ucapan yang instan dan ekspresif. Dengan suara seperti Hades (berwibawa dan kasar), Pixie (bernada tinggi dan playful), dan Edward (bicara cepat dan lincah), pengembang game memiliki kumpulan karakter siap pakai — tidak diperlukan aktor suara untuk prototipe atau produksi indie.

Produksi Konten Bervolume Tinggi

Perlu menghasilkan ribuan klip audio untuk platform e-learning, layanan berita otomatis, atau lapisan aksesibilitas? Kombinasi biaya rendah dan pemrosesan cepat Mini membuat pembuatan audio batch menjadi layak secara ekonomi dalam skala besar. Gunakan untuk draf dan iterasi, lalu beralih ke Inworld 1.5 Max untuk produksi akhir ketika kualitas maksimum menjadi prioritas.

Pengiriman Konten Multibahasa

Buat konten audio dalam 15 bahasa dari satu endpoint API. Baik Anda melokalisasi aplikasi, memproduksi podcast multibahasa, atau membangun pipeline terjemahan, Mini menangani semuanya dengan pengucapan dan intonasi berkualitas native per bahasa.

Aksesibilitas

Ubah konten tertulis — artikel, dokumentasi, notifikasi — menjadi audio yang diucapkan dengan harga terjangkau, membuat produk Anda dapat diakses oleh pengguna tunanetra atau siapa pun yang lebih suka mendengarkan daripada membaca.

Memulai di WaveSpeedAI

Menggunakan Inworld 1.5 Mini di WaveSpeedAI hanya membutuhkan beberapa baris kode:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "text": "A clear example input",
    "voice_id": "Alex",
    "speaking_rate": 1,
    "temperature": 1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/inworld/inworld-1.5-mini/text-to-speech", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Langkah demi Langkah

Siapkan teks Anda — Ketik atau tempel konten yang ingin Anda ubah menjadi ucapan
Pilih suara — Pilih dari 65+ preset suara dalam 15 bahasa (misalnya, Ashley untuk hangat dan alami, Carter untuk energi penyiar radio, Asuka untuk bahasa Jepang yang ramah)
Sesuaikan pengiriman — Atur speaking_rate untuk tempo dan temperature untuk ekspresivitas
Buat — Kirimkan permintaan Anda dan terima file audio yang dapat diunduh

Tips Pro

Pertahankan speaking_rate sekitar 1,0 untuk tempo alami — turunkan untuk bacaan dramatis, naikkan untuk pengumuman cepat
temperature yang lebih rendah menghasilkan output yang lebih konsisten dan dapat diprediksi — ideal untuk sistem otomatis
Pecah teks panjang menjadi paragraf logis untuk tempo yang lebih baik dan jeda alami
Selalu cocokkan bahasa suara dengan bahasa teks Anda untuk pengucapan terbaik
Mulailah dengan Mini untuk prototipe cepat, lalu tingkatkan ke Inworld 1.5 Max untuk audio produksi akhir

Mengapa WaveSpeedAI?

Menjalankan Inworld 1.5 Mini melalui WaveSpeedAI memberikan Anda lebih dari sekadar akses model:

Tanpa Cold Start — Permintaan dilayani segera tanpa penundaan inisialisasi
Performa Terbaik — Infrastruktur yang dioptimalkan menghadirkan waktu respons yang konsisten dan cepat
Harga Terjangkau — Penagihan bayar sesuai penggunaan yang transparan tanpa biaya tersembunyi
REST API Sederhana — Integrasikan ke aplikasi apa pun dengan endpoint inferensi yang mudah dipahami
Siap Produksi — Dibangun untuk keandalan dalam skala besar dengan ketersediaan tinggi

Kesimpulan

Inworld 1.5 Mini mencapai titik manis yang selama ini dicari para pengembang: model text-to-speech yang cukup cepat untuk aplikasi real-time, cukup terjangkau untuk produksi bervolume tinggi, dan cukup serbaguna untuk mencakup 15 bahasa dengan 65+ suara ekspresif. Didukung oleh teknologi TTS peringkat #1 di Artificial Analysis Leaderboard dan disampaikan melalui infrastruktur zero-cold-start WaveSpeedAI, ini adalah jalur paling praktis untuk menambahkan suara alami ke aplikasi Anda.

Baik Anda membangun agen suara, menghasilkan dialog game, memproduksi konten multibahasa, atau membuat produk Anda lebih mudah diakses, Inworld 1.5 Mini di WaveSpeedAI menghadirkan kecepatan, kualitas, dan keterjangkauan untuk mewujudkannya.

Coba Inworld 1.5 Mini di WaveSpeedAI sekarang dan mulai membangun dengan sintesis suara berkualitas produksi dengan biaya yang jauh lebih hemat.