Apresentando o WaveSpeedAI LTX 2.3 Text-to-Video LoRA no WaveSpeedAI

Apresentando LTX-2.3 Text-to-Video com Suporte a LoRA no WaveSpeedAI

A linha entre imaginação e vídeo nunca foi tão tênue. Hoje, temos o prazer de anunciar a disponibilidade do LTX-2.3 Text-to-Video com suporte a LoRA no WaveSpeedAI — um modelo que não apenas gera vídeo a partir de texto, mas permite que você o molde à sua visão com estilos personalizados, personagens e movimentos por meio de adaptadores LoRA leves.

Seja para construir uma identidade de marca, animar um personagem recorrente ou criar conteúdo com uma estética cinematográfica única, o LTX-2.3 com LoRA oferece o controle que modelos genéricos de geração de vídeo simplesmente não conseguem igualar.

O Que É o LTX-2.3 Text-to-Video LoRA?

O LTX-2.3 é a evolução mais recente da família de modelos LTX da Lightricks — um modelo de base baseado em Diffusion Transformer (DiT) que gera vídeo e áudio sincronizados a partir de um único prompt de texto em uma única passagem. Sem pipeline de produção de áudio separado. Sem soluções alternativas de pós-processamento. Você descreve uma cena e recebe tanto os visuais quanto o som.

O que torna este lançamento particularmente poderoso é a adição do suporte a LoRA (Low-Rank Adaptation). Os adaptadores LoRA são módulos leves e treináveis que se posicionam sobre o modelo base e direcionam sua saída para estilos, personagens ou padrões de movimento específicos. Você pode empilhar até três adaptadores LoRA simultaneamente, combinando estéticas personalizadas com todo o poder generativo do LTX-2.3.

O resultado: um modelo que é ao mesmo tempo de uso geral e profundamente personalizável.

Principais Recursos

Qualidade Visual e de Áudio Aprimorada

O LTX-2.3 vem com um VAE (Variational Autoencoder) completamente redesenhado, treinado com dados de maior qualidade. Texturas finas, cabelos, sobreposições de texto e detalhes de bordas são mais nítidos e realistas do que nas versões anteriores. No lado do áudio, os dados de treinamento foram filtrados para eliminar silêncios, ruídos e artefatos, e um novo vocoder entrega um som mais limpo e confiável, com sincronização mais precisa com o conteúdo visual.

Maior Fidelidade ao Prompt

Um novo conector de texto com atenção controlada significa que seus prompts são seguidos com mais fidelidade. Descrições de timing, movimento, expressão e sugestões de áudio se traduzem diretamente na saída gerada — reduzindo a distância entre o que você escreve e o que você vê.

Personalização com LoRA

Aplique até três adaptadores LoRA por geração, cada um com escala ajustável. Isso permite que você:

Defina um estilo visual — estéticas cinematográficas, visuais de anime, paletas de cores de marca
Mantenha consistência de personagens — rostos, figuras ou mascotes recorrentes em diferentes clipes
Treine padrões de movimento personalizados — movimentos característicos, técnicas de câmera, coreografias
Combine adaptadores — junte um LoRA de personagem com um LoRA de estilo e um LoRA de movimento em uma única geração

Opções de Saída Flexíveis

Resoluções: 480p para iteração rápida, 720p para qualidade equilibrada, 1080p para entrega final
Duração: Gere clipes de 5 a 20 segundos
Áudio sincronizado: O som é gerado junto com o vídeo em uma única passagem do modelo, com a possibilidade de guiar o áudio através de sugestões no prompt como “chuva em uma janela”, “jazz animado” ou “torcida vibrando”

Preços Transparentes e Previsíveis

Cada geração tem um custo claro baseado em resolução e duração:

Resolução	5s	10s	15s	20s
480p	$0,15	$0,30	$0,45	$0,60
720p	$0,20	$0,40	$0,60	$0,80
1080p	$0,25	$0,50	$0,75	$1,00

Sem surpresas. Sem cobranças ocultas de computação.

Casos de Uso no Mundo Real

Conteúdo de Marca em Escala

Equipes de marketing podem treinar um LoRA com a identidade visual da marca — tratamentos de logotipo, paletas de cores, estilo de motion graphics — e então gerar conteúdo de vídeo alinhado à marca apenas a partir de descrições de texto. Precisa de 20 variações de uma revelação de produto? Escreva os prompts, aplique o LoRA da marca e gere.

Narrativas com Personagens

Criadores que desenvolvem séries ou campanhas em torno de um personagem específico podem treinar um LoRA de semelhança a partir de clipes de referência. Cada novo vídeo mantém a aparência do mesmo personagem, tornando o conteúdo episódico e as séries para redes sociais visualmente consistentes sem edição manual.

Criação de Conteúdo para Redes Sociais

O intervalo de duração de 5 a 20 segundos se encaixa perfeitamente no conteúdo de formato curto para TikTok, Instagram Reels e YouTube Shorts. Gere clipes chamativos com áudio sincronizado diretamente a partir de um briefing criativo, e itere em 480p antes de renderizar a versão final em 1080p.

Prototipagem Rápida e Visualização de Conceitos

Agências e estúdios podem usar a geração de texto para vídeo para visualizar rapidamente conceitos em apresentações para clientes. Descreva a cena, aplique um LoRA de estilo cinematográfico e produza uma prévia refinada em minutos em vez de dias.

Motion Design e Exploração de VFX

Treine LoRAs em movimentos de câmera específicos — planos de acompanhamento, zooms com dolly, panorâmicas suaves — e aplique-os a qualquer cena. Isso oferece aos designers de motion um ponto de partida que já corresponde à linguagem cinematográfica pretendida.

Primeiros Passos no WaveSpeedAI

Gerar seu primeiro vídeo requer apenas algumas linhas de código:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/text-to-video-lora", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Rodar no WaveSpeedAI significa sem cold starts — sua requisição atinge uma GPU aquecida e começa a gerar imediatamente. Combinado com preços acessíveis por geração e uma API REST direta, você pode integrar a geração de vídeo em fluxos de trabalho de produção sem sobrecarga de infraestrutura.

Dicas para Melhores Resultados

Itere com baixo custo: Comece em 480p para refinar seu prompt e combinação de LoRA, depois renderize a versão final em 1080p
Seja específico com o áudio: Inclua sugestões de áudio no seu prompt — “música suave de piano”, “ondas quebrando”, “passos no cascalho” — para paisagens sonoras mais intencionais
Use seeds fixas: Ao comparar variações de prompt ou escalas de LoRA, fixe a seed para isolar o que está realmente mudando
Empilhe LoRAs estrategicamente: Combine um adaptador de estilo com um adaptador de movimento para resultados que nenhum dos dois alcançaria sozinho, ajustando a escala de cada um para encontrar o equilíbrio certo

O Panorama Geral

A geração de vídeo por IA cruzou um limiar em 2026. O que antes era uma novidade produzindo clipes borrados de poucos segundos amadureceu para uma ferramenta pronta para produção, capaz de gerar saída com qualidade cinematográfica, movimento coerente e áudio sincronizado. O LTX-2.3 com suporte a LoRA representa o próximo passo nessa evolução: não apenas melhor qualidade de base, mas a capacidade de tornar o modelo seu.

LoRAs personalizados transformam um modelo de vídeo de uso geral em uma ferramenta criativa especializada que entende sua marca, seus personagens e sua estética. Essa é a diferença entre gerar conteúdo genérico e gerar o seu conteúdo.

Comece a Criar Hoje

O LTX-2.3 Text-to-Video com suporte a LoRA está disponível agora no WaveSpeedAI. Acesse a página do modelo para explorar a API, executar sua primeira geração e ver o que é possível quando você combina geração de vídeo de última geração com a precisão de adaptadores LoRA personalizados.

Seu texto. Seu estilo. Seu vídeo.