Presentando Inworld 1.5 Mini Text To Speech en WaveSpeedAI

Presentamos Inworld 1.5 Mini Text-to-Speech en WaveSpeedAI

La voz se está convirtiendo en la interfaz predeterminada para las aplicaciones de IA. Desde agentes conversacionales hasta juegos interactivos, la capacidad de convertir texto en voz de sonido natural — de forma instantánea y económica — ya no es un lujo. Es un requisito. WaveSpeedAI se complace en anunciar la disponibilidad de Inworld 1.5 Mini, un modelo de texto a voz ultrarrápido y ultraasequible que ofrece síntesis de voz multilingüe natural a tan solo $0.005 por cada 1,000 caracteres.

Desarrollado por Inworld AI — el equipo detrás del modelo #1 en el TTS Leaderboard de Artificial Analysis — Inworld 1.5 Mini lleva la síntesis de voz de nivel productivo a los desarrolladores que necesitan velocidad y escala sin disparar el presupuesto.

¿Qué es Inworld 1.5 Mini?

Inworld 1.5 Mini es la variante ligera de la familia TTS-1.5 de Inworld, diseñada específicamente para aplicaciones sensibles a la latencia y de alto volumen. Mientras que su versión hermana, Inworld 1.5 Max, optimiza para la máxima naturalidad y expresividad, Mini prioriza tiempos de respuesta ultrarrápidos — logrando una latencia P90 de tiempo-hasta-primer-audio inferior a 130ms, lo que es 4 veces más rápido que los modelos de generación anterior.

A pesar de su arquitectura compacta, Mini no sacrifica calidad. La generación TTS-1.5 ofrece un 30% más de expresividad y una reducción del 40% en las tasas de error de palabras en comparación con los modelos anteriores de Inworld. El resultado es un modelo que suena notablemente natural mientras responde casi instantáneamente — lo que lo hace ideal para experiencias interactivas en tiempo real donde cada milisegundo cuenta.

Características Principales

Latencia Ultra-Baja

Latencia P90 de tiempo-hasta-primer-audio inferior a 130ms — entre los modelos TTS más rápidos disponibles hoy
4 veces más rápido que las generaciones anteriores de Inworld
Optimizado para pipelines conversacionales en tiempo real y aplicaciones interactivas

Más de 65 Voces Multilingües en 15 Idiomas

Inworld 1.5 Mini incluye una biblioteca de voces diversa que abarca:

Inglés — 25 voces distintas que van desde narradores profesionales hasta voces de personajes expresivos
Chino — 4 voces que incluyen estilos calmados, enérgicos y narrativos
Japonés, Coreano — Voces de hablantes nativos con entonación natural
Europeo — Francés, alemán, español, portugués, italiano, holandés, polaco, ruso
Asia del Sur y Oriente Medio — Hindi, hebreo, árabe

Cada voz tiene su propia personalidad — desde el tono rico e íntimo de Blake, ideal para audiolibros, hasta la calidad robótica amenazante de Dominus, perfecta para villanos de videojuegos, pasando por la cadencia calmante de Luna, adecuada para contenido de meditación.

Control Detallado

Ajuste de velocidad de habla — Acelera para anuncios, ralentiza para narración dramática
Control de temperatura — Valores más bajos para una salida consistente y predecible; valores más altos para una entrega más dinámica y expresiva
Conjunto de parámetros simple — Solo texto, voz, velocidad y temperatura. No se requiere configuración compleja.

Precios Imbatibles

A $0.005 por cada 1,000 caracteres, Inworld 1.5 Mini es una de las soluciones TTS más asequibles del mercado — hasta 25 veces más económica que los modelos de la competencia a niveles de calidad comparables. El conteo de caracteres se redondea al millar más cercano, con facturación transparente y predecible.

Caracteres	Costo
Hasta 1,000	$0.005
Hasta 5,000	$0.025
Hasta 10,000	$0.050

Casos de Uso en el Mundo Real

IA Conversacional y Agentes de Voz

La latencia inferior a 130ms de Inworld 1.5 Mini lo convierte en la opción natural para chatbots habilitados por voz, agentes de servicio al cliente y asistentes virtuales. Los usuarios experimentan conversaciones fluidas y naturales sin los silencios incómodos que afectan a los sistemas TTS más lentos. La biblioteca de voces multilingüe significa que puedes implementar globalmente desde el primer día.

Videojuegos y Entretenimiento Interactivo

Potencia el diálogo de NPCs, la narración dentro del juego y las voces de personajes con síntesis de voz instantánea y expresiva. Con voces como Hades (imponente y ronca), Pixie (aguda y juguetona) y Edward (hablador rápido y callejero), los desarrolladores de juegos tienen un elenco de personajes listo para usar — sin necesidad de actores de voz para prototipos o producción independiente.

Producción de Contenido de Alto Volumen

¿Necesitas generar miles de clips de audio para una plataforma de e-learning, un servicio de noticias automatizado o una capa de accesibilidad? La combinación de bajo costo y procesamiento rápido de Mini hace que la generación de audio en lotes sea económicamente viable a escala. Úsalo para borradores e iteraciones, luego cambia a Inworld 1.5 Max para la producción final cuando la máxima calidad importa.

Entrega de Contenido Multilingüe

Crea contenido de audio en 15 idiomas desde un único endpoint de API. Ya sea que estés localizando una aplicación, produciendo podcasts multilingües o construyendo un pipeline de traducción, Mini lo gestiona todo con pronunciación e entonación de calidad nativa por idioma.

Accesibilidad

Convierte contenido escrito — artículos, documentación, notificaciones — en audio hablado de forma asequible, haciendo que tus productos sean accesibles para usuarios con discapacidad visual o cualquiera que prefiera escuchar antes que leer.

Primeros Pasos en WaveSpeedAI

Usar Inworld 1.5 Mini en WaveSpeedAI requiere solo unas pocas líneas de código:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "text": "A clear example input",
    "voice_id": "Alex",
    "speaking_rate": 1,
    "temperature": 1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/inworld/inworld-1.5-mini/text-to-speech", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Paso a Paso

Prepara tu texto — Escribe o pega el contenido que deseas convertir a voz
Elige una voz — Selecciona entre más de 65 preajustes de voz en 15 idiomas (p. ej., Ashley para un tono cálido y natural, Carter para energía de locutor de radio, Asuka para japonés amigable)
Ajusta la entrega — Establece speaking_rate para el ritmo y temperature para la expresividad
Genera — Envía tu solicitud y recibe un archivo de audio descargable

Consejos Profesionales

Mantén speaking_rate alrededor de 1.0 para un ritmo natural — bájalo para lecturas dramáticas, súbelo para anuncios rápidos
Una temperature más baja produce una salida más consistente y predecible — ideal para sistemas automatizados
Divide los textos largos en párrafos lógicos para un mejor ritmo y pausas naturales
Siempre haz coincidir el idioma de la voz con el idioma de tu texto para la mejor pronunciación
Comienza con Mini para prototipos rápidos, luego actualiza a Inworld 1.5 Max para el audio de producción final

¿Por qué WaveSpeedAI?

Ejecutar Inworld 1.5 Mini a través de WaveSpeedAI te ofrece más que solo acceso al modelo:

Sin Arranques en Frío — Las solicitudes se atienden de inmediato sin ningún retraso de inicialización
Mejor Rendimiento — La infraestructura optimizada ofrece tiempos de respuesta consistentemente rápidos
Precios Asequibles — Facturación transparente de pago por uso sin cargos ocultos
API REST Simple — Intégrate en cualquier aplicación con un endpoint de inferencia sencillo
Listo para Producción — Construido para la confiabilidad a escala con alta disponibilidad

Conclusión

Inworld 1.5 Mini alcanza el punto óptimo que los desarrolladores han estado buscando: un modelo de texto a voz lo suficientemente rápido para aplicaciones en tiempo real, lo suficientemente asequible para producción de alto volumen y lo suficientemente versátil para cubrir 15 idiomas con más de 65 voces expresivas. Respaldado por la tecnología TTS #1 en el Artificial Analysis Leaderboard y entregado a través de la infraestructura de arranque cero de WaveSpeedAI, es el camino más práctico para agregar voz natural a tus aplicaciones.

Ya sea que estés construyendo agentes de voz, generando diálogos para juegos, produciendo contenido multilingüe o haciendo tus productos más accesibles, Inworld 1.5 Mini en WaveSpeedAI ofrece la velocidad, calidad y asequibilidad para hacerlo realidad.

Prueba Inworld 1.5 Mini en WaveSpeedAI hoy y comienza a construir con síntesis de voz de nivel productivo a una fracción del costo.