Apresentando WaveSpeedAI LTX 2.3 Text-to-Video no WaveSpeedAI
O LTX-2.3 é um modelo de fundação de áudio-vídeo baseado em DiT, projetado para gerar vídeo e áudio sincronizados em um único modelo, com qualidade de áudio e visual aprimorada
LTX-2.3 Text-to-Video: Gere Vídeo e Áudio Sincronizados a Partir de um Único Prompt
LTX-2.3 é um modelo de fundação áudio-vídeo baseado em DiT que gera vídeo e áudio totalmente sincronizados a partir de um único prompt de texto — eliminando o fluxo de trabalho tradicional de duas etapas de produzir visuais e som separadamente. Agora disponível no WaveSpeedAI, esta versão atualizada entrega visuais mais nítidos, áudio mais rico e uma aderência notavelmente melhor ao prompt do que seu predecessor, tornando-o uma escolha atraente para criadores que desejam clipes prontos para produção sem precisar combinar múltiplas ferramentas de IA.
Para estúdios, profissionais de marketing e criadores independentes, a mensagem é simples: descreva uma cena, receba um vídeo que já soa corretamente.
Como Funciona o LTX-2.3 Text-to-Video
O LTX-2.3 é construído sobre uma arquitetura Diffusion Transformer (DiT) treinada conjuntamente em dados de vídeo e áudio. Em vez de gerar imagens sem som e adicionar o áudio depois, o modelo produz ambas as modalidades em uma única passagem, de modo que os eventos na tela e as pistas de áudio permanecem alinhados — passos caem no ritmo, chuva soa quando as gotas aparecem, e a ambientação sonora corresponde ao contexto visual.
Especificações técnicas importantes para desenvolvedores:
- Entrada: Prompt de texto descrevendo cena, movimento e pistas de áudio
- Saída: Vídeo MP4 com áudio sincronizado embutido
- Resoluções: 480p, 720p (padrão), 1080p
- Duração: 5 a 20 segundos em uma única geração
- Restrições: Largura e altura divisíveis por 32; contagem de frames divisível por 8 + 1
- Controle de seed: Seed fixo opcional para iteração reproduzível
Comparado com modelos de text-to-video que geram clipes sem som (como o estilo Sora ou bases de difusão anteriores), o LTX-2.3 une dois pipelines — síntese visual e geração de áudio — em um único modelo de fundação. Isso significa menor latência, menor custo e nenhum trabalho manual de sincronização na pós-produção.
Pronto para testar? Experimente o LTX-2.3 Text-to-Video no WaveSpeedAI e gere seu primeiro clipe em menos de um minuto.
Principais Recursos do LTX-2.3 Text-to-Video
- Áudio-vídeo sincronizado em uma única passagem — Sem etapa separada de design de som. O modelo gera ambientação, efeitos e áudio atmosférico correspondentes como parte do mesmo processo de difusão.
- Melhor aderência ao prompt em relação ao LTX-2 — A atualização 2.3 aprimora o alinhamento entre prompts detalhados e cenas renderizadas, de modo que descrições complexas se traduzem de forma mais confiável na tela.
- Três níveis de resolução (480p / 720p / 1080p) — Itere com baixo custo em 480p, depois escale para 1080p na entrega final sem alterar seu prompt ou fluxo de trabalho.
- Duração variável de clipes de até 20 segundos — Longo o suficiente para leituras de anúncios, ganchos para redes sociais e momentos narrativos curtos; curto o suficiente para manter as gerações rápidas.
- Modelo de fundação baseado em DiT — A arquitetura Diffusion Transformer entrega movimento temporalmente consistente e texturas de alta fidelidade, especialmente em cenas dinâmicas.
- API REST pronta para produção — Disponível no WaveSpeedAI sem cold starts, latência previsível e precificação por uso.
- Saídas reproduzíveis com controle de seed — Bloqueie o seed para testar variações de prompt em A/B sem interferência de variância aleatória.
Melhores Casos de Uso para o LTX-2.3 Text-to-Video
Conteúdo para Redes Sociais em Escala
Plataformas de formato curto recompensam velocidade e áudio. O LTX-2.3 permite que criadores publiquem clipes de 10 a 15 segundos para TikTok, Reels e Shorts com design de som integrado — sem precisar caçar músicas livres de royalties ou fazer edição de áudio no Audacity. Digite “rua de Tóquio com luzes neon, chuva batendo em poças, jazz distante, dolly lento para frente” e o modelo retorna uma publicação utilizável.
Marketing e Anúncios de Performance
Profissionais de marketing de performance precisam testar dezenas de variações criativas por semana. Com o LTX-2.3, uma agência pode gerar um anúncio completo em 720p por $0,30 por spot de 10 segundos, trocar textos ou descrições de cena e iterar conceitos criativos mais rápido do que qualquer pipeline de produção tradicional. O áudio sincronizado significa que cada variante está pronta para redes de anúncios desde o início.
Storyboarding e Pré-Visualização
Diretores de cinema e animadores podem transformar cenas escritas em previz animadas com atmosfera correspondente. Descreva uma cena de um roteiro — “vento uivando por uma crista de deserto, cavaleiro galopa em frente à câmera, corvo grasna no alto” — e use o clipe resultante para alinhar cinegrafistas, editores e clientes antes de qualquer dia real de filmagem.
Demos de Produto e Vídeos Explicativos
Equipes de SaaS e hardware podem prototipar vídeos explicativos sem reservar estúdios. Descreva o contexto do produto, o movimento e o ambiente, e use o LTX-2.3 para gerar B-roll de fundo que já soa polido — perfeito para landing pages, fluxos de integração e apresentações de pitch.
Trailers de Jogos e Conceitos Cinematográficos
Estúdios de jogos independentes podem criar rapidamente cortes de trailers e vídeos de conceito atmosféricos. O áudio sincronizado é particularmente valioso aqui: um clipe de 10 segundos de emboscada em floresta com farfalhar de folhas, choque de espadas e bater de asas de pássaro transmite o tom de um jogo muito melhor do que imagens sem som.
Visualizadores Musicais e de Atmosfera
Músicos e criadores de lo-fi podem gerar peças de ambiente em loop — “chuva numa janela, piano suave, zoom lento em uma xícara de café” — para visualizadores de streaming, fundos de transmissão ao vivo e posts em redes sociais.
Conteúdo Educativo e Narrativo
Educadores e contadores de histórias podem dar vida a conteúdo escrito. Um autor de livros infantis pode prototipar leituras animadas; um canal de história pode ilustrar momentos de ambientação de cenas sem precisar licenciar imagens de arquivo.
Preços do LTX-2.3 e Acesso à API
O LTX-2.3 usa precificação transparente por uso, escalada por resolução e duração:
| Resolução | 5s | 10s | 15s | 20s |
|---|---|---|---|---|
| 480p | $0,10 | $0,20 | $0,30 | $0,40 |
| 720p | $0,15 | $0,30 | $0,45 | $0,60 |
| 1080p | $0,20 | $0,40 | $0,60 | $0,80 |
Isso significa que um clipe em 1080p de 20 segundos com áudio incluído custa apenas $0,80 — uma fração dos custos típicos de licenciamento de imagens de arquivo ou produção de vídeo por freelancers.
Chamando o LTX-2.3 via API do WaveSpeedAI
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/text-to-video",
{
"prompt": "A golden retriever runs through a sunlit meadow, paws thumping the grass, birds chirping overhead, gentle wind",
"resolution": "720p",
"duration": 10,
},
)
print(output["outputs"][0])
Vantagens do WaveSpeedAI que os desenvolvedores valorizam:
- Sem cold starts — a latência da primeira chamada equivale à latência em estado estável
- API REST — agnóstica de linguagem, integra-se em qualquer stack
- Pagamento por uso — sem mínimos, sem cobranças de GPU ociosa
- Uptime de nível de produção — construída para cargas de trabalho de inferência de alto rendimento
Obtenha uma chave de API e comece a construir com o LTX-2.3.
Dicas para Melhores Resultados com o LTX-2.3 Text-to-Video
- Seja explícito sobre o áudio — O modelo gera som automaticamente, mas mencionar “chuva”, “piano jazz”, “plateia aplaudindo” ou “passos na cascalho” oferece maior controle sobre a trilha de áudio.
- Descreva o movimento, não apenas o cenário — Movimentos de câmera (“dolly lento para dentro”, “plano de seguimento com câmera na mão”), movimento do sujeito e pistas de ritmo produzem resultados mais cinematográficos do que descrições estáticas.
- Itere em 480p, renderize em 1080p — Use o nível mais barato para ajustar seu prompt, depois aumente a resolução quando a composição estiver definida. Use um seed fixo para manter as mudanças significativas.
- Limite os prompts a um único momento — Um clipe de 10 segundos só comporta um ou dois momentos narrativos. Evite colocar roteiros de múltiplas cenas em um único prompt.
- Edite vídeos mais longos na pós-produção — Para conteúdo com mais de 20 segundos, gere múltiplos clipes com LTX-2.3 e una-os em seu editor de vídeo.
- Use o bloqueio de seed para testes A/B — Ao comparar duas variações de prompt, defina o mesmo
seedpara isolar as mudanças do prompt da variância aleatória.
Para conteúdo animado a partir de obras de arte existentes, combine o LTX-2.3 com o LTX-2.3 Image-to-Video para manter o estilo consistente em toda uma campanha.
Perguntas Frequentes
O que é o LTX-2.3 Text-to-Video?
O LTX-2.3 é um modelo de fundação áudio-vídeo baseado em DiT que gera vídeo e áudio sincronizados a partir de um prompt de texto em uma única passagem, disponível via API REST no WaveSpeedAI.
Quanto custa o LTX-2.3?
Os preços começam em $0,10 para um clipe de 5 segundos em 480p e chegam a $0,80 para um clipe de 20 segundos em 1080p — cobrados por geração sem necessidade de assinatura.
Posso usar o LTX-2.3 via API?
Sim. O LTX-2.3 está disponível através da API REST do WaveSpeedAI sem cold starts. Envie um prompt, resolução e duração, e receba uma URL de vídeo com áudio embutido.
O LTX-2.3 gera áudio automaticamente?
Sim — o áudio é produzido em conjunto com o vídeo na mesma passagem do modelo. Você pode deixar o modelo inferir o áudio a partir do contexto visual ou descrever explicitamente os sons no seu prompt para um controle mais preciso.
Qual é a duração máxima dos vídeos do LTX-2.3?
Cada geração suporta de 5 a 20 segundos. Para vídeos mais longos, gere múltiplos clipes e edite-os juntos na pós-produção.
Comece a Gerar Vídeo e Áudio com o LTX-2.3 Hoje
O LTX-2.3 une síntese de vídeo e produção de áudio em um único modelo econômico e de alta qualidade — perfeito para profissionais de marketing, criadores e desenvolvedores que precisam de clipes rápidos e completos sem precisar gerenciar ferramentas separadas.


