← Blog

Apresentando o WaveSpeedAI LTX 2.3 Imagem-para-Vídeo no WaveSpeedAI

LTX-2.3 é um modelo de fundação de áudio-vídeo baseado em DiT, projetado para gerar vídeo e áudio sincronizados em um único modelo, com qualidade de áudio e visual aprimorada

6 min read
Wavespeed Ai Ltx.2.3 Image To Video
Wavespeed Ai Ltx.2.3 Image To Video LTX-2.3 é um modelo de fundação de áudio-vídeo baseado em Di...
Try it
Apresentando o WaveSpeedAI LTX 2.3 Imagem-para-Vídeo no WaveSpeedAI

Dê Vida às Suas Imagens com LTX-2.3 Image-to-Video no WaveSpeedAI

Imagens estáticas contam uma história. Imagens em movimento com som fazem o público sentir essa história. Com o LTX-2.3 Image-to-Video agora disponível no WaveSpeedAI, você pode transformar qualquer imagem estática em um vídeo de alta fidelidade — completo com áudio sincronizado — em uma única geração. Sem pós-produção. Sem ferramentas de áudio separadas. Basta fazer upload, escrever o prompt e reproduzir.

Desenvolvido pela Lightricks sobre a arquitetura Diffusion Transformer (DiT), o LTX-2.3 representa um avanço significativo na geração unificada de áudio e vídeo. Enquanto a maioria dos modelos de imagem para vídeo produz clipes silenciosos que exigem design de som separado, o LTX-2.3 gera movimento e áudio juntos como uma única saída coerente. O resultado é um conteúdo animado que parece completo desde o primeiro frame.

O Que é o LTX-2.3?

O LTX-2.3 é a iteração mais recente da família de modelos LTX-2 — um modelo base de 19 bilhões de parâmetros divididos aproximadamente em 14 bilhões para processamento de vídeo e 5 bilhões para áudio. É um dos primeiros modelos open-source capaz de gerar áudio e vídeo sincronizados dentro de uma única arquitetura unificada, utilizando mecanismos de atenção cruzada para manter som e movimento perfeitamente alinhados.

A versão “2.3” introduz melhorias significativas em relação ao seu predecessor: um VAE (Autoencoder Variacional) reconstruído e treinado com dados de maior qualidade, um vocoder HiFi-GAN aprimorado para saída de áudio mais limpa, maior consistência entre imagem e vídeo, e melhor aderência aos prompts ao longo do pipeline de geração.

Principais Funcionalidades

  • Geração Sincronizada de Áudio e Vídeo: O som não é adicionado como um elemento secundário. Ruídos ambientes, música, diálogos e efeitos sonoros são gerados junto ao movimento visual em uma única passagem, eliminando a necessidade de fluxos de trabalho de áudio separados.

  • Novo VAE para Detalhes Mais Nítidos: O espaço latente reconstruído no LTX-2.3 preserva texturas finas, características faciais, cabelos, textos e detalhes de bordas em todo o frame. As saídas são visivelmente mais nítidas do que nas versões anteriores.

  • Saída de Áudio Mais Limpa: Um vocoder HiFi-GAN aprimorado reduz artefatos de ruído e lacunas de silêncio. Diálogos, sons ambientes e música chegam com clareza notavelmente maior.

  • Preservação Fiel da Imagem: O modelo mantém o sujeito, a composição, o enquadramento e a iluminação da sua imagem de referência enquanto adiciona movimento natural e coerente — sem deriva de identidade ou degradação visual.

  • Resolução e Duração Flexíveis: Gere vídeos em 480p, 720p ou 1080p, com durações que variam de 5 a 20 segundos, permitindo equilibrar qualidade, custo e necessidades criativas.

  • Suporte a Retrato e Paisagem: O modo retrato nativo 9:16 facilita a produção de conteúdo otimizado para plataformas sociais como Instagram Reels, TikTok e YouTube Shorts.

  • Opções de 24/48 FPS: Escolha a taxa de frames que corresponde às suas necessidades de saída, desde reprodução padrão até entrega em alta taxa de frames mais suave.

Casos de Uso no Mundo Real

Marketing de Produtos

Transforme fotografia de produtos em vídeos dinâmicos de apresentação. Faça upload de uma foto principal de um tênis, um frasco de skincare ou um móvel, e o LTX-2.3 o anima com movimento sutil — uma rotação, iluminação variável, atmosfera ambiental — enquanto gera áudio ambiente correspondente. O que antes exigia um videomaker e um designer de som agora pode ser esboçado em segundos.

Conteúdo para Redes Sociais

A demanda por vídeos curtos é incessante. O LTX-2.3 permite que criadores convertam suas melhores imagens estáticas em posts animados que prendem a atenção, com som integrado. Uma fotografia de paisagem se torna um momento cinematográfico com vento e canto de pássaros. Uma foto de comida se torna um clipe fumegante e crepitante pronto para publicar.

Animação de Retratos e Personagens

Anime fotos de rosto, retratos e artes de personagens com movimento natural. O modelo se destaca na preservação da identidade facial enquanto adiciona movimento realista — viradas sutis de cabeça, piscar de olhos, mudanças de expressão — sendo valioso para avatares digitais, projetos criativos e conteúdo personalizado.

Storyboard e Pré-Visualização

Para cineastas e diretores criativos, o LTX-2.3 transforma frames estáticos de storyboard e concept art em sequências animadas com áudio sincronizado. Isso acelera a pré-produção ao dar às partes interessadas uma percepção tangível do ritmo, do clima e do design sonoro antes que um único frame seja filmado.

E-Commerce e Publicidade

Listagens de produtos estáticas perdem a atenção. Vídeos animados de produtos com som ambiente aumentam o engajamento e as taxas de conversão. O LTX-2.3 torna prático gerar assets de vídeo em escala — itere rapidamente em 480p e depois renderize os assets finais em 1080p.

Começando no WaveSpeedAI

Executar o LTX-2.3 Image-to-Video no WaveSpeedAI é simples. Sem cold starts e com inferência rápida, você obtém resultados em segundos, não em minutos.

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video",
    {
        "image": "https://your-image-url.com/photo.jpg",
        "prompt": "The camera slowly pushes in as the subject turns their head, soft ambient music playing"
    },
)

print(output["outputs"][0])  # URL do vídeo de saída

Você também pode especificar resolução e duração:

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video",
    {
        "image": "https://your-image-url.com/product.jpg",
        "prompt": "Gentle rotation revealing product details, soft studio lighting, subtle ambient hum",
        "resolution": "1080p",
        "duration": 10
    },
)

Dica profissional: Comece com 480p e durações curtas para ajustar seu prompt e a direção do movimento. Assim que tiver o resultado desejado, escale para 1080p para a entrega final. Use um seed fixo ao comparar variações de prompt para isolar exatamente o que mudou.

Preços

O LTX-2.3 no WaveSpeedAI começa em apenas $0,10 para um clipe de 5 segundos em 480p, chegando a $0,80 para um vídeo de 20 segundos em 1080p. Sem assinaturas — pague apenas pelo que gerar.

Resolução5s10s15s20s
480p$0,10$0,20$0,30$0,40
720p$0,15$0,30$0,45$0,60
1080p$0,20$0,40$0,60$0,80

Por Que WaveSpeedAI?

Em um cenário onde a geração sincronizada de áudio e vídeo está rapidamente se tornando o padrão — com modelos como Veo 3.1, Kling 3.0 e Sora 2 expandindo os limites — o LTX-2.3 se destaca como uma opção open-source poderosa com qualidade de nível profissional. E executá-lo no WaveSpeedAI oferece a infraestrutura correspondente: inferência rápida sem cold starts, integração simples via API e preços que tornam a experimentação acessível.

Seja você um criador independente animando conteúdo para redes sociais ou uma equipe gerando assets de vídeo em escala, a combinação da geração unificada de áudio e vídeo do LTX-2.3 com a infraestrutura otimizada do WaveSpeedAI significa menos tempo esperando e mais tempo criando.

Comece a Criar

A distância entre uma imagem estática e um vídeo completo com som nunca foi tão pequena. Experimente o LTX-2.3 Image-to-Video no WaveSpeedAI hoje e descubra como suas imagens soam em movimento.

Compartilhar