← Blog

Inworld TTS 1.5 Já Está Disponível no WaveSpeedAI (Max + Mini)

O WaveSpeedAI agora suporta o Inworld TTS 1.5, um motor de síntese de voz em tempo real pronto para produção, projetado para baixa latência, alta expressividade e escalabilidade.

4 min read

O WaveSpeedAI agora suporta o Inworld TTS 1.5, um motor de conversão de texto em fala pronto para produção, projetado para baixa latência, alta expressividade e escala.

Se você está desenvolvendo agentes de voz, assistentes em tempo real, diálogos de NPC em jogos ou qualquer UX de voz interativa onde cada milissegundo importa, esta integração tem um único objetivo: entregar uma experiência de voz responsiva e natural—sem sacrificar confiabilidade ou custo em escala.

Nota de co-marketing: Faremos uma promoção conjunta com a Inworld a partir de terça-feira, 10 de fev de 2026 (terça-feira, 02:00)—portanto, se você está avaliando voz em tempo real para seu produto, esta é a melhor semana para testá-la de ponta a ponta.

Visão geral do Inworld TTS 1.5


Por que isso é importante: qualidade no topo dos rankings + latência em tempo real

A mais recente linha TTS da Inworld tem se posicionado com base em benchmarks mensuráveis e de terceiros—especialmente desempenho em leaderboards independentes e responsividade em tempo real.

  • Sinal de ranking #1 (qualidade): O Inworld TTS está listado no nível mais alto nas comparações de TTS da Artificial Analysis, que acompanham qualidade (ELO) juntamente com velocidade e preço.
  • Streaming em tempo real: A Inworld destaca o streaming em tempo real via WebSocket, com variantes do modelo visando diferentes compromissos entre latência e qualidade.

Em resumo: os desenvolvedores não querem apenas “boas vozes”—querem boas vozes que respondam instantaneamente e não falhem sob carga.


Max vs Mini: qual modelo escolher?

O WaveSpeedAI oferece duas opções para produção:

TTS 1.5 Max (recomendado para a maioria dos apps)

Inworld TTS 1.5 Max no WaveSpeedAI

Escolha o Max se sua prioridade é a melhor qualidade geral de voz, estabilidade e expressividade, mantendo ainda a latência em território de tempo real (a Inworld descreve desempenho na classe de ~200ms para o Max).

Casos de uso típicos:

  • Agentes de voz onde a naturalidade importa
  • Suporte ao cliente / UX corporativo
  • Narração de conteúdo onde um tom “humano” faz a diferença

Endpoint no WaveSpeedAI: https://wavespeed.ai/models/inworld/inworld-1.5-max/text-to-speech

TTS 1.5 Mini (quando latência é o KPI #1)

Inworld TTS 1.5 Mini no WaveSpeedAI

Escolha o Mini se sua prioridade é latência ultrabaixa para alternância de turnos instantânea (a Inworld descreve latência P90 <120ms para o Mini).

Casos de uso típicos:

  • Diálogos de NPC em jogos em tempo real
  • Avatares ao vivo / interações em streaming
  • Qualquer produto onde o tempo de resposta supera a fidelidade

Endpoint no WaveSpeedAI: https://wavespeed.ai/models/inworld/inworld-1.5-mini/text-to-speech


O que você pode construir agora (casos de uso reais)

Aqui estão os padrões que as equipes estão entregando mais rapidamente:

Agentes de voz em tempo real (S2S / alternância de turnos) Síntese de baixa latência + streaming é o que faz a conversa parecer “viva”—especialmente quando combinada com um LLM e um pipeline de áudio interrompível.

Copilotos de voz para suporte ao cliente Quando você precisa de tom consistente, alta inteligibilidade e controle de custos, a “camada de voz” não pode ser o gargalo. A Inworld também oferece opções de clonagem de voz para vozes personalizadas ou de marca.

Jogos e personagens interativos Respostas curtas, muita concorrência e picos imprevisíveis—é aqui que a infraestrutura importa tanto quanto o modelo.


Início rápido: chamar o Inworld TTS 1.5 no WaveSpeedAI

Use os endpoints do modelo diretamente:

Dicas de implementação (com foco em produção):

  • Prefira o streaming via WebSocket quando precisar de reprodução em tempo real e alternância de turnos precisa.
  • Se estiver desenvolvendo um agente de voz, projete para interrupções (barge-in) e reprodução parcial de áudio em vez de aguardar a forma de onda completa.
  • Se precisar de recursos de alinhamento como timestamps / marcações de áudio, planeje a camada de reprodução do cliente para consumir esses sinais (ótimo para destaque estilo karaokê, legendas ou sincronização de UI).

Perguntas Frequentes

Vocês suportam streaming via WebSocket? Sim—a Inworld posiciona o TTS 1.5 para streaming em tempo real via WebSocket, e esse é o caminho recomendado para UX de voz interativa.

Quantos idiomas são suportados? A Inworld oferece suporte multilíngue; o WaveSpeedAI expõe os modelos para que você possa criar experiências multilíngues a partir da mesma superfície de integração. (O conjunto exato de idiomas suportados depende do modelo/versão que você selecionar.)

A clonagem de voz está disponível? A Inworld oferece recursos de clonagem de voz (com diferentes níveis/fluxos dependendo do tipo de clonagem).

Compartilhar