← Blog

Apresentando o WaveSpeedAI LTX 2.3 Text-to-Video LoRA no WaveSpeedAI

LTX-2.3 com suporte a LoRA é um modelo de fundação de áudio e vídeo baseado em DiT, projetado para gerar vídeo e áudio sincronizados com estilos personalizados, movimento ou semelhança

7 min read
Wavespeed Ai Ltx.2.3 Text To Video Lora
Wavespeed Ai Ltx.2.3 Text To Video Lora LTX-2.3 com suporte a LoRA é um modelo de fundação de áudio ...
Try it
Apresentando o WaveSpeedAI LTX 2.3 Text-to-Video LoRA no WaveSpeedAI

Apresentando LTX-2.3 Text-to-Video com Suporte a LoRA no WaveSpeedAI

A linha entre imaginação e vídeo nunca foi tão tênue. Hoje, temos o prazer de anunciar a disponibilidade do LTX-2.3 Text-to-Video com suporte a LoRA no WaveSpeedAI — um modelo que não apenas gera vídeo a partir de texto, mas permite que você o molde à sua visão com estilos personalizados, personagens e movimentos por meio de adaptadores LoRA leves.

Seja para construir uma identidade de marca, animar um personagem recorrente ou criar conteúdo com uma estética cinematográfica única, o LTX-2.3 com LoRA oferece o controle que modelos genéricos de geração de vídeo simplesmente não conseguem igualar.

O Que É o LTX-2.3 Text-to-Video LoRA?

O LTX-2.3 é a evolução mais recente da família de modelos LTX da Lightricks — um modelo de base baseado em Diffusion Transformer (DiT) que gera vídeo e áudio sincronizados a partir de um único prompt de texto em uma única passagem. Sem pipeline de produção de áudio separado. Sem soluções alternativas de pós-processamento. Você descreve uma cena e recebe tanto os visuais quanto o som.

O que torna este lançamento particularmente poderoso é a adição do suporte a LoRA (Low-Rank Adaptation). Os adaptadores LoRA são módulos leves e treináveis que se posicionam sobre o modelo base e direcionam sua saída para estilos, personagens ou padrões de movimento específicos. Você pode empilhar até três adaptadores LoRA simultaneamente, combinando estéticas personalizadas com todo o poder generativo do LTX-2.3.

O resultado: um modelo que é ao mesmo tempo de uso geral e profundamente personalizável.

Principais Recursos

Qualidade Visual e de Áudio Aprimorada

O LTX-2.3 vem com um VAE (Variational Autoencoder) completamente redesenhado, treinado com dados de maior qualidade. Texturas finas, cabelos, sobreposições de texto e detalhes de bordas são mais nítidos e realistas do que nas versões anteriores. No lado do áudio, os dados de treinamento foram filtrados para eliminar silêncios, ruídos e artefatos, e um novo vocoder entrega um som mais limpo e confiável, com sincronização mais precisa com o conteúdo visual.

Maior Fidelidade ao Prompt

Um novo conector de texto com atenção controlada significa que seus prompts são seguidos com mais fidelidade. Descrições de timing, movimento, expressão e sugestões de áudio se traduzem diretamente na saída gerada — reduzindo a distância entre o que você escreve e o que você vê.

Personalização com LoRA

Aplique até três adaptadores LoRA por geração, cada um com escala ajustável. Isso permite que você:

  • Defina um estilo visual — estéticas cinematográficas, visuais de anime, paletas de cores de marca
  • Mantenha consistência de personagens — rostos, figuras ou mascotes recorrentes em diferentes clipes
  • Treine padrões de movimento personalizados — movimentos característicos, técnicas de câmera, coreografias
  • Combine adaptadores — junte um LoRA de personagem com um LoRA de estilo e um LoRA de movimento em uma única geração

Opções de Saída Flexíveis

  • Resoluções: 480p para iteração rápida, 720p para qualidade equilibrada, 1080p para entrega final
  • Duração: Gere clipes de 5 a 20 segundos
  • Áudio sincronizado: O som é gerado junto com o vídeo em uma única passagem do modelo, com a possibilidade de guiar o áudio através de sugestões no prompt como “chuva em uma janela”, “jazz animado” ou “torcida vibrando”

Preços Transparentes e Previsíveis

Cada geração tem um custo claro baseado em resolução e duração:

Resolução5s10s15s20s
480p$0,15$0,30$0,45$0,60
720p$0,20$0,40$0,60$0,80
1080p$0,25$0,50$0,75$1,00

Sem surpresas. Sem cobranças ocultas de computação.

Casos de Uso no Mundo Real

Conteúdo de Marca em Escala

Equipes de marketing podem treinar um LoRA com a identidade visual da marca — tratamentos de logotipo, paletas de cores, estilo de motion graphics — e então gerar conteúdo de vídeo alinhado à marca apenas a partir de descrições de texto. Precisa de 20 variações de uma revelação de produto? Escreva os prompts, aplique o LoRA da marca e gere.

Narrativas com Personagens

Criadores que desenvolvem séries ou campanhas em torno de um personagem específico podem treinar um LoRA de semelhança a partir de clipes de referência. Cada novo vídeo mantém a aparência do mesmo personagem, tornando o conteúdo episódico e as séries para redes sociais visualmente consistentes sem edição manual.

Criação de Conteúdo para Redes Sociais

O intervalo de duração de 5 a 20 segundos se encaixa perfeitamente no conteúdo de formato curto para TikTok, Instagram Reels e YouTube Shorts. Gere clipes chamativos com áudio sincronizado diretamente a partir de um briefing criativo, e itere em 480p antes de renderizar a versão final em 1080p.

Prototipagem Rápida e Visualização de Conceitos

Agências e estúdios podem usar a geração de texto para vídeo para visualizar rapidamente conceitos em apresentações para clientes. Descreva a cena, aplique um LoRA de estilo cinematográfico e produza uma prévia refinada em minutos em vez de dias.

Motion Design e Exploração de VFX

Treine LoRAs em movimentos de câmera específicos — planos de acompanhamento, zooms com dolly, panorâmicas suaves — e aplique-os a qualquer cena. Isso oferece aos designers de motion um ponto de partida que já corresponde à linguagem cinematográfica pretendida.

Primeiros Passos no WaveSpeedAI

Gerar seu primeiro vídeo requer apenas algumas linhas de código:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video-lora",
    {
        "prompt": "A lone astronaut walks across a crimson desert under twin suns, wind howling across the dunes, cinematic tracking shot",
        "loras": [
            {"path": "your-style-lora-url", "scale": 0.8}
        ],
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

Rodar no WaveSpeedAI significa sem cold starts — sua requisição atinge uma GPU aquecida e começa a gerar imediatamente. Combinado com preços acessíveis por geração e uma API REST direta, você pode integrar a geração de vídeo em fluxos de trabalho de produção sem sobrecarga de infraestrutura.

Dicas para Melhores Resultados

  • Itere com baixo custo: Comece em 480p para refinar seu prompt e combinação de LoRA, depois renderize a versão final em 1080p
  • Seja específico com o áudio: Inclua sugestões de áudio no seu prompt — “música suave de piano”, “ondas quebrando”, “passos no cascalho” — para paisagens sonoras mais intencionais
  • Use seeds fixas: Ao comparar variações de prompt ou escalas de LoRA, fixe a seed para isolar o que está realmente mudando
  • Empilhe LoRAs estrategicamente: Combine um adaptador de estilo com um adaptador de movimento para resultados que nenhum dos dois alcançaria sozinho, ajustando a escala de cada um para encontrar o equilíbrio certo

O Panorama Geral

A geração de vídeo por IA cruzou um limiar em 2026. O que antes era uma novidade produzindo clipes borrados de poucos segundos amadureceu para uma ferramenta pronta para produção, capaz de gerar saída com qualidade cinematográfica, movimento coerente e áudio sincronizado. O LTX-2.3 com suporte a LoRA representa o próximo passo nessa evolução: não apenas melhor qualidade de base, mas a capacidade de tornar o modelo seu.

LoRAs personalizados transformam um modelo de vídeo de uso geral em uma ferramenta criativa especializada que entende sua marca, seus personagens e sua estética. Essa é a diferença entre gerar conteúdo genérico e gerar o seu conteúdo.

Comece a Criar Hoje

O LTX-2.3 Text-to-Video com suporte a LoRA está disponível agora no WaveSpeedAI. Acesse a página do modelo para explorar a API, executar sua primeira geração e ver o que é possível quando você combina geração de vídeo de última geração com a precisão de adaptadores LoRA personalizados.

Seu texto. Seu estilo. Seu vídeo.

Compartilhar