← Blog

Apresentando o Inworld 1.5 Mini Text To Speech no WaveSpeedAI

O Inworld 1.5 Mini oferece síntese de texto em fala de alta qualidade com mais de 56 vozes multilíngues, taxa de fala ajustável e saída de áudio com som natural. Pronto

7 min read
Inworld Inworld.1.5 Mini Text To Speech
Inworld Inworld.1.5 Mini Text To Speech O Inworld 1.5 Mini oferece síntese de texto em fala de alta ...
Try it
Apresentando o Inworld 1.5 Mini Text To Speech no WaveSpeedAI

Apresentando o Inworld 1.5 Mini Text-to-Speech no WaveSpeedAI

A voz está se tornando a interface padrão para aplicações de IA. De agentes conversacionais a jogos interativos, a capacidade de transformar texto em fala natural — instantaneamente e de forma acessível — não é mais um diferencial. É um requisito. O WaveSpeedAI tem o prazer de anunciar a disponibilidade do Inworld 1.5 Mini, um modelo de text-to-speech ultrarrápido e ultrasssequível que oferece síntese de fala multilíngue natural por apenas $0,005 a cada 1.000 caracteres.

Desenvolvido pela Inworld AI — a equipe por trás do modelo #1 no Artificial Analysis TTS Leaderboard — o Inworld 1.5 Mini traz síntese de voz em nível de produção para desenvolvedores que precisam de velocidade e escala sem comprometer o orçamento.

O que é o Inworld 1.5 Mini?

O Inworld 1.5 Mini é a variante leve da família TTS-1.5 da Inworld, desenvolvida especificamente para aplicações sensíveis à latência e de alto volume. Enquanto seu irmão, o Inworld 1.5 Max, otimiza para máxima naturalidade e expressividade, o Mini prioriza tempos de resposta extremamente rápidos — alcançando latência de tempo-até-primeiro-áudio P90 abaixo de 130ms, o que é 4x mais rápido do que modelos de geração anterior.

Apesar de sua arquitetura compacta, o Mini não sacrifica qualidade. A geração TTS-1.5 oferece 30% mais expressividade e uma redução de 40% nas taxas de erro de palavras em comparação com modelos anteriores da Inworld. O resultado é um modelo que soa extraordinariamente natural enquanto responde quase instantaneamente — tornando-o ideal para experiências interativas em tempo real onde cada milissegundo importa.

Principais Recursos

Latência Ultra-Baixa

  • Latência de tempo-até-primeiro-áudio P90 abaixo de 130ms — entre os modelos TTS mais rápidos disponíveis hoje
  • 4x mais rápido do que gerações anteriores da Inworld
  • Otimizado para pipelines conversacionais em tempo real e aplicações interativas

Mais de 65 Vozes Multilíngues em 15 Idiomas

O Inworld 1.5 Mini vem com uma biblioteca de vozes diversificada abrangendo:

  • Inglês — 25 vozes distintas, desde narradores profissionais até vozes expressivas de personagens
  • Chinês — 4 vozes incluindo estilos calmos, energéticos e narrativos
  • Japonês, Coreano — Vozes com falantes nativos e entonação natural
  • Europeus — Francês, Alemão, Espanhol, Português, Italiano, Holandês, Polonês, Russo
  • Sul-Asiático e Oriente Médio — Hindi, Hebraico, Árabe

Cada voz tem sua própria personalidade — do tom rico e íntimo de Blake, ideal para audiolivros, à qualidade robótica ameaçadora de Dominus, perfeita para vilões de jogos, à cadência tranquilizante de Luna, adequada para conteúdo de meditação.

Controle Refinado

  • Ajuste de velocidade de fala — Acelere para anúncios, desacelere para narração dramática
  • Controle de temperatura — Valores mais baixos para saída consistente e previsível; valores mais altos para entrega mais dinâmica e expressiva
  • Conjunto simples de parâmetros — Apenas texto, voz, taxa e temperatura. Nenhuma configuração complexa necessária.

Preços Imbatíveis

A $0,005 por 1.000 caracteres, o Inworld 1.5 Mini é uma das soluções TTS mais acessíveis do mercado — até 25x mais acessível do que modelos concorrentes em níveis de qualidade comparáveis. A contagem de caracteres é arredondada para o milhar mais próximo, com faturamento transparente e previsível.

CaracteresCusto
Até 1.000$0,005
Até 5.000$0,025
Até 10.000$0,050

Casos de Uso no Mundo Real

IA Conversacional e Agentes de Voz

A latência abaixo de 130ms do Inworld 1.5 Mini o torna a escolha natural para chatbots com voz habilitada, agentes de atendimento ao cliente e assistentes virtuais. Os usuários experimentam conversas fluidas e naturais sem os silêncios desconfortáveis que afetam sistemas TTS mais lentos. A biblioteca de vozes multilíngues significa que você pode implantar globalmente desde o primeiro dia.

Jogos e Entretenimento Interativo

Alimente diálogos de NPCs, narração no jogo e vozes de personagens com síntese de fala instantânea e expressiva. Com vozes como Hades (imponente e rouco), Pixie (agudo e brincalhão) e Edward (fala rápida e perspicaz), os desenvolvedores de jogos têm um elenco de personagens pronto para usar — sem necessidade de atores de voz para prototipagem ou produção indie.

Produção de Conteúdo em Alto Volume

Precisa gerar milhares de clipes de áudio para uma plataforma de e-learning, serviço de notícias automatizado ou camada de acessibilidade? A combinação de baixo custo e processamento rápido do Mini torna a geração de áudio em lote economicamente viável em escala. Use-o para rascunhos e iterações, depois mude para o Inworld 1.5 Max para produção final quando a qualidade máxima for importante.

Entrega de Conteúdo Multilíngue

Crie conteúdo de áudio em 15 idiomas a partir de um único endpoint de API. Seja localizando um aplicativo, produzindo podcasts multilíngues ou construindo um pipeline de tradução, o Mini lida com tudo com pronúncia e entonação de qualidade nativa por idioma.

Acessibilidade

Converta conteúdo escrito — artigos, documentação, notificações — em áudio falado de forma acessível, tornando seus produtos acessíveis a usuários com deficiência visual ou a qualquer pessoa que prefira ouvir a ler.

Primeiros Passos no WaveSpeedAI

Usar o Inworld 1.5 Mini no WaveSpeedAI requer apenas algumas linhas de código:

import wavespeed

output = wavespeed.run(
    "inworld/inworld-1.5-mini/text-to-speech",
    {
        "text": "Welcome to WaveSpeedAI. The fastest way to bring AI to production.",
        "voice_id": "Olivia",
        "speaking_rate": 1,
        "temperature": 1,
    },
)

print(output["outputs"][0])  # URL do áudio

Passo a Passo

  1. Prepare seu texto — Digite ou cole o conteúdo que deseja converter em fala
  2. Escolha uma voz — Selecione entre mais de 65 predefinições de voz em 15 idiomas (ex.: Ashley para um som caloroso e natural, Carter para energia de locutor de rádio, Asuka para japonês amigável)
  3. Ajuste a entrega — Configure speaking_rate para o ritmo e temperature para a expressividade
  4. Gere — Envie sua solicitação e receba um arquivo de áudio para download

Dicas Profissionais

  • Mantenha speaking_rate em torno de 1,0 para um ritmo natural — diminua para leituras dramáticas, aumente para anúncios rápidos
  • temperature mais baixa produz saída mais consistente e previsível — ideal para sistemas automatizados
  • Divida textos longos em parágrafos lógicos para melhor ritmo e pausas naturais
  • Sempre combine o idioma da voz com o idioma do seu texto para a melhor pronúncia
  • Comece com o Mini para prototipagem rápida, depois atualize para o Inworld 1.5 Max para áudio de produção final

Por que WaveSpeedAI?

Executar o Inworld 1.5 Mini através do WaveSpeedAI oferece mais do que apenas acesso ao modelo:

  • Sem Cold Starts — As solicitações são atendidas imediatamente sem nenhum atraso de inicialização
  • Melhor Desempenho — A infraestrutura otimizada oferece tempos de resposta consistentemente rápidos
  • Preços Acessíveis — Faturamento transparente por uso sem taxas ocultas
  • API REST Simples — Integre em qualquer aplicação com um endpoint de inferência direto
  • Pronto para Produção — Construído para confiabilidade em escala com alta disponibilidade

Conclusão

O Inworld 1.5 Mini atinge o ponto ideal que os desenvolvedores estavam procurando: um modelo de text-to-speech rápido o suficiente para aplicações em tempo real, acessível o suficiente para produção em alto volume e versátil o suficiente para cobrir 15 idiomas com mais de 65 vozes expressivas. Respaldado pela tecnologia TTS #1 no Artificial Analysis Leaderboard e entregue através da infraestrutura de zero cold start do WaveSpeedAI, é o caminho mais prático para adicionar voz natural às suas aplicações.

Seja construindo agentes de voz, gerando diálogos de jogos, produzindo conteúdo multilíngue ou tornando seus produtos mais acessíveis, o Inworld 1.5 Mini no WaveSpeedAI oferece a velocidade, qualidade e acessibilidade para tornar isso possível.

Experimente o Inworld 1.5 Mini no WaveSpeedAI hoje e comece a construir com síntese de voz em nível de produção a uma fração do custo.

Compartilhar