Apresentando o Inworld 1.5 Mini Text To Speech no WaveSpeedAI

Apresentando o Inworld 1.5 Mini Text-to-Speech no WaveSpeedAI

A voz está se tornando a interface padrão para aplicações de IA. De agentes conversacionais a jogos interativos, a capacidade de transformar texto em fala natural — instantaneamente e de forma acessível — não é mais um diferencial. É um requisito. O WaveSpeedAI tem o prazer de anunciar a disponibilidade do Inworld 1.5 Mini, um modelo de text-to-speech ultrarrápido e ultrasssequível que oferece síntese de fala multilíngue natural por apenas $0,005 a cada 1.000 caracteres.

Desenvolvido pela Inworld AI — a equipe por trás do modelo #1 no Artificial Analysis TTS Leaderboard — o Inworld 1.5 Mini traz síntese de voz em nível de produção para desenvolvedores que precisam de velocidade e escala sem comprometer o orçamento.

O que é o Inworld 1.5 Mini?

O Inworld 1.5 Mini é a variante leve da família TTS-1.5 da Inworld, desenvolvida especificamente para aplicações sensíveis à latência e de alto volume. Enquanto seu irmão, o Inworld 1.5 Max, otimiza para máxima naturalidade e expressividade, o Mini prioriza tempos de resposta extremamente rápidos — alcançando latência de tempo-até-primeiro-áudio P90 abaixo de 130ms, o que é 4x mais rápido do que modelos de geração anterior.

Apesar de sua arquitetura compacta, o Mini não sacrifica qualidade. A geração TTS-1.5 oferece 30% mais expressividade e uma redução de 40% nas taxas de erro de palavras em comparação com modelos anteriores da Inworld. O resultado é um modelo que soa extraordinariamente natural enquanto responde quase instantaneamente — tornando-o ideal para experiências interativas em tempo real onde cada milissegundo importa.

Principais Recursos

Latência Ultra-Baixa

Latência de tempo-até-primeiro-áudio P90 abaixo de 130ms — entre os modelos TTS mais rápidos disponíveis hoje
4x mais rápido do que gerações anteriores da Inworld
Otimizado para pipelines conversacionais em tempo real e aplicações interativas

Mais de 65 Vozes Multilíngues em 15 Idiomas

O Inworld 1.5 Mini vem com uma biblioteca de vozes diversificada abrangendo:

Inglês — 25 vozes distintas, desde narradores profissionais até vozes expressivas de personagens
Chinês — 4 vozes incluindo estilos calmos, energéticos e narrativos
Japonês, Coreano — Vozes com falantes nativos e entonação natural
Europeus — Francês, Alemão, Espanhol, Português, Italiano, Holandês, Polonês, Russo
Sul-Asiático e Oriente Médio — Hindi, Hebraico, Árabe

Cada voz tem sua própria personalidade — do tom rico e íntimo de Blake, ideal para audiolivros, à qualidade robótica ameaçadora de Dominus, perfeita para vilões de jogos, à cadência tranquilizante de Luna, adequada para conteúdo de meditação.

Controle Refinado

Ajuste de velocidade de fala — Acelere para anúncios, desacelere para narração dramática
Controle de temperatura — Valores mais baixos para saída consistente e previsível; valores mais altos para entrega mais dinâmica e expressiva
Conjunto simples de parâmetros — Apenas texto, voz, taxa e temperatura. Nenhuma configuração complexa necessária.

Preços Imbatíveis

A $0,005 por 1.000 caracteres, o Inworld 1.5 Mini é uma das soluções TTS mais acessíveis do mercado — até 25x mais acessível do que modelos concorrentes em níveis de qualidade comparáveis. A contagem de caracteres é arredondada para o milhar mais próximo, com faturamento transparente e previsível.

Caracteres	Custo
Até 1.000	$0,005
Até 5.000	$0,025
Até 10.000	$0,050

Casos de Uso no Mundo Real

IA Conversacional e Agentes de Voz

A latência abaixo de 130ms do Inworld 1.5 Mini o torna a escolha natural para chatbots com voz habilitada, agentes de atendimento ao cliente e assistentes virtuais. Os usuários experimentam conversas fluidas e naturais sem os silêncios desconfortáveis que afetam sistemas TTS mais lentos. A biblioteca de vozes multilíngues significa que você pode implantar globalmente desde o primeiro dia.

Jogos e Entretenimento Interativo

Alimente diálogos de NPCs, narração no jogo e vozes de personagens com síntese de fala instantânea e expressiva. Com vozes como Hades (imponente e rouco), Pixie (agudo e brincalhão) e Edward (fala rápida e perspicaz), os desenvolvedores de jogos têm um elenco de personagens pronto para usar — sem necessidade de atores de voz para prototipagem ou produção indie.

Produção de Conteúdo em Alto Volume

Precisa gerar milhares de clipes de áudio para uma plataforma de e-learning, serviço de notícias automatizado ou camada de acessibilidade? A combinação de baixo custo e processamento rápido do Mini torna a geração de áudio em lote economicamente viável em escala. Use-o para rascunhos e iterações, depois mude para o Inworld 1.5 Max para produção final quando a qualidade máxima for importante.

Entrega de Conteúdo Multilíngue

Crie conteúdo de áudio em 15 idiomas a partir de um único endpoint de API. Seja localizando um aplicativo, produzindo podcasts multilíngues ou construindo um pipeline de tradução, o Mini lida com tudo com pronúncia e entonação de qualidade nativa por idioma.

Acessibilidade

Converta conteúdo escrito — artigos, documentação, notificações — em áudio falado de forma acessível, tornando seus produtos acessíveis a usuários com deficiência visual ou a qualquer pessoa que prefira ouvir a ler.

Primeiros Passos no WaveSpeedAI

Usar o Inworld 1.5 Mini no WaveSpeedAI requer apenas algumas linhas de código:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "text": "A clear example input",
    "voice_id": "Alex",
    "speaking_rate": 1,
    "temperature": 1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/inworld/inworld-1.5-mini/text-to-speech", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Passo a Passo

Prepare seu texto — Digite ou cole o conteúdo que deseja converter em fala
Escolha uma voz — Selecione entre mais de 65 predefinições de voz em 15 idiomas (ex.: Ashley para um som caloroso e natural, Carter para energia de locutor de rádio, Asuka para japonês amigável)
Ajuste a entrega — Configure speaking_rate para o ritmo e temperature para a expressividade
Gere — Envie sua solicitação e receba um arquivo de áudio para download

Dicas Profissionais

Mantenha speaking_rate em torno de 1,0 para um ritmo natural — diminua para leituras dramáticas, aumente para anúncios rápidos
temperature mais baixa produz saída mais consistente e previsível — ideal para sistemas automatizados
Divida textos longos em parágrafos lógicos para melhor ritmo e pausas naturais
Sempre combine o idioma da voz com o idioma do seu texto para a melhor pronúncia
Comece com o Mini para prototipagem rápida, depois atualize para o Inworld 1.5 Max para áudio de produção final

Por que WaveSpeedAI?

Executar o Inworld 1.5 Mini através do WaveSpeedAI oferece mais do que apenas acesso ao modelo:

Sem Cold Starts — As solicitações são atendidas imediatamente sem nenhum atraso de inicialização
Melhor Desempenho — A infraestrutura otimizada oferece tempos de resposta consistentemente rápidos
Preços Acessíveis — Faturamento transparente por uso sem taxas ocultas
API REST Simples — Integre em qualquer aplicação com um endpoint de inferência direto
Pronto para Produção — Construído para confiabilidade em escala com alta disponibilidade

Conclusão

O Inworld 1.5 Mini atinge o ponto ideal que os desenvolvedores estavam procurando: um modelo de text-to-speech rápido o suficiente para aplicações em tempo real, acessível o suficiente para produção em alto volume e versátil o suficiente para cobrir 15 idiomas com mais de 65 vozes expressivas. Respaldado pela tecnologia TTS #1 no Artificial Analysis Leaderboard e entregue através da infraestrutura de zero cold start do WaveSpeedAI, é o caminho mais prático para adicionar voz natural às suas aplicações.

Seja construindo agentes de voz, gerando diálogos de jogos, produzindo conteúdo multilíngue ou tornando seus produtos mais acessíveis, o Inworld 1.5 Mini no WaveSpeedAI oferece a velocidade, qualidade e acessibilidade para tornar isso possível.

Experimente o Inworld 1.5 Mini no WaveSpeedAI hoje e comece a construir com síntese de voz em nível de produção a uma fração do custo.