← Blog

Inworld TTS 1.5 Ya Está Disponible en WaveSpeedAI (Max + Mini)

WaveSpeedAI ahora es compatible con Inworld TTS 1.5, un motor de texto a voz en tiempo real listo para producción, diseñado para baja latencia, alta expresividad y escalabilidad.

4 min read

WaveSpeedAI ahora es compatible con Inworld TTS 1.5, un motor de conversión de texto a voz en tiempo real listo para producción, diseñado para baja latencia, alta expresividad y escalabilidad.

Si estás desarrollando agentes de voz, asistentes en tiempo real, diálogos de NPC para videojuegos o cualquier experiencia de voz interactiva donde cada milisegundo importa, esta integración se centra en un solo objetivo: lanzar una experiencia de voz natural y responsiva, sin sacrificar la fiabilidad ni el coste a escala.

Nota de co-marketing: Realizaremos una promoción conjunta con Inworld a partir del martes 10 de febrero de 2026 (martes, 2:00 AM)—así que si estás evaluando voz en tiempo real para tu producto, esta es la mejor semana para probarlo de principio a fin.

Inworld TTS 1.5 overview


Por qué esto importa: calidad mejor clasificada + latencia en tiempo real

La última línea TTS de Inworld se ha posicionado en torno a benchmarks medibles de terceros, especialmente el rendimiento en clasificaciones independientes y la capacidad de respuesta en tiempo real.

  • Señal de clasificación #1 (calidad): Inworld TTS figura en el nivel más alto de las comparativas TTS de Artificial Analysis, que rastrean la calidad (ELO) junto con la velocidad y el precio.
  • Streaming en tiempo real: Inworld destaca el streaming en tiempo real mediante WebSocket, con variantes de modelo orientadas a distintas compensaciones entre latencia y calidad.

En resumen: los desarrolladores no solo quieren “buenas voces”, sino voces de calidad que respondan al instante y no fallen bajo carga.


Max vs Mini: ¿qué modelo deberías elegir?

WaveSpeedAI ofrece dos opciones para producción:

TTS 1.5 Max (recomendado para la mayoría de aplicaciones)

Inworld TTS 1.5 Max on WaveSpeedAI

Elige Max si tu prioridad es la mejor calidad de voz, estabilidad y expresividad en general, manteniendo la latencia en el ámbito del tiempo real (Inworld describe un rendimiento de clase ~200ms para Max).

Casos de uso habituales:

  • Agentes de voz donde la naturalidad es importante
  • Soporte al cliente / UX empresarial
  • Narración de contenido donde el tono “humano” marca la diferencia

Endpoint en WaveSpeedAI: https://wavespeed.ai/models/inworld/inworld-1.5-max/text-to-speech

TTS 1.5 Mini (cuando la latencia es el KPI número 1)

Inworld TTS 1.5 Mini on WaveSpeedAI

Elige Mini si tu prioridad es la latencia ultrabaja para turnos de conversación instantáneos (Inworld describe una latencia P90 de <120ms para Mini).

Casos de uso habituales:

  • Diálogo de NPC en videojuegos en tiempo real
  • Avatares en directo / interacciones en streaming
  • Cualquier producto donde el tiempo de respuesta supere a la fidelidad

Endpoint en WaveSpeedAI: https://wavespeed.ai/models/inworld/inworld-1.5-mini/text-to-speech


Qué puedes construir ahora (casos de uso reales)

Estos son los patrones con los que los equipos están lanzando más rápido:

Agentes de voz en tiempo real (S2S / turnos de conversación) La síntesis de baja latencia más el streaming es lo que hace que la conversación se sienta “viva”, especialmente cuando se combina con un LLM y un pipeline de audio interrumpible.

Copilotos de voz para soporte al cliente Cuando se necesita un tono consistente, alta inteligibilidad y control de costes, la “capa de voz” no puede ser el cuello de botella. Inworld también ofrece opciones de clonación de voz para voces de marca o personalizadas.

Videojuegos y personajes interactivos Respuestas cortas, alta concurrencia y picos impredecibles: aquí la infraestructura importa tanto como el modelo.


Inicio rápido: llamar a Inworld TTS 1.5 en WaveSpeedAI

Utiliza los endpoints del modelo directamente:

Consejos de implementación (orientados a producción):

  • Prefiere el streaming por WebSocket cuando necesites reproducción en tiempo real y turnos de conversación ajustados.
  • Si estás construyendo un agente de voz, diseña para interrupciones (barge-in) y reproducción parcial de audio en lugar de esperar a la forma de onda completa.
  • Si necesitas funciones de alineación como marcas de tiempo o anotaciones de audio, planifica tu capa de reproducción del cliente para consumir esas señales (ideal para resaltado tipo karaoke, subtítulos o sincronización de UI).

Preguntas frecuentes

¿Soportáis streaming por WebSocket? Sí: Inworld posiciona TTS 1.5 para streaming en tiempo real mediante WebSocket, y ese es el camino recomendado para una UX de voz interactiva.

¿Cuántos idiomas están soportados? Inworld ofrece soporte multilingüe; WaveSpeedAI expone los modelos para que puedas construir experiencias multilingües desde la misma superficie de integración. (El conjunto exacto de idiomas compatibles depende del modelo y la versión que selecciones.)

¿Está disponible la clonación de voz? Inworld proporciona capacidades de clonación de voz (con distintos niveles y flujos según el tipo de clonación).