LTX-2.3: O Que Há de Novo no Modelo de Vídeo 22B da Lightricks (2026)

Olá a todos, sou a Dora. Uma coisa pequena me empurrou a experimentar o  LTX‑2.3 na semana passada: um clipe de 4 segundos onde os fechos de casacos continuavam a derreter no tecido. Não estava à procura de um novo modelo. Queria apenas que os fechos parecessem fechos sem ter de mexer durante uma hora. Por isso, reservei uma tarde e corri alguns dos mesmos prompts e dicas de áudio que uso desde o LTX‑2. As minhas notas abaixo não são um guia de funcionalidades. São os pontos onde a versão realmente mudou o meu dia, e os pontos onde não mudou.

LTX-2 vs LTX-2.3 em Resumo

Aqui está o resumo que eu gostaria de ter tido antes de começar. Estou a partilhar o que observei e o que consta nas notas de lançamento. Se algo parece aproximado, é propositado.

Parâmetros	~10–14B (escala da geração anterior)	~22B (indicado pelo fornecedor: contexto maior)
VAE	VAE padrão: micro-detalhe mais suave	Novo VAE de alta fidelidade: bordas finas mais nítidas, gradientes mais limpos
Codificador de texto	Boa aderência ao prompt: alguma imprecisão com objetos pequenos	Atualizado com melhor ancoragem de objetos pequenos e transferência de estilo
Áudio	Condicionamento de áudio básico: faseamento/distorção ocasional	Camada de áudio reconstruída: condicionamento mais limpo, menos artefactos
Base/Saída	Estável a 720p base: suporte retrato via adaptações	Retrato nativo 9:16: mesma base mas com melhores upscalers
Novidades	/	Melhorias áudio-para-vídeo, upscalers espaciais + temporais, opções 24/48 FPS

Duas conclusões rápidas desta tabela: a atualização do VAE é a heroína silenciosa para os visuais, e a pilha de áudio parece menos frágil. O salto nos parâmetros ajuda na consistência, mas não corrige magicamente a lógica de storyboard ou tipografia exata.

Novo VAE — O Que Mais Detalhe Fino Realmente Significa para a Saída

No LTX‑2, eu via frequentemente texturas finas “respirar” entre frames, grão de tecido que parecia certo no frame 12 e borrado no frame 17. Com o novo VAE do LTX‑2.3, as bordas e micro-texturas mantêm-se melhor. A diferença não é óbvia como um sinal de néon: é a ausência de pequenos incômodos.

Na prática:

Linhas de cabelo e pestanas não se agrupam tão rapidamente quando o movimento aumenta.
As bordas cromadas mantêm um realce mais preciso sem se expandir.
Os gradientes nos céus e sombras captam menos faixas.

Isto não me poupou tempo de imediato, ainda corri os meus habituais varrimentos de denoise e seed. Mas após três execuções, parei de fazer máscaras manuais de limpeza em joias e fechos. É “tempo poupado” de forma lenta e cumulativa: talvez 6–8 minutos por clipe de 10 segundos.

Ressalva: também pode criar excesso de nitidez se usar prompts com muito contraste. Reduzi a orientação um pouco (cerca de 5–10%) nesses casos para evitar frames com aspeto granuloso.

Onde Vai Ver a Diferença (Rostos, Texturas, Objetos Pequenos, Cromo)

Mantive o conjunto de testes restrito: três prompts que conheço de memória, executados com as mesmas seeds na semana de 18–24 de março.

Rostos: Poros, cabelos finos e cantos dos olhos sobrevivem melhor ao movimento. Por defeito, parece menos um “filtro de beleza”. Ainda tive ocasionalmente um sorriso estranho quando restringi demasiado o prompt, mas menos bochechas com aspeto ceroso no geral.
Texturas: Ganga, linho, aço escovado. Estas melhoraram mais. O modelo respeita o padrão de tecelagem sem pulsar. No LTX‑2, às vezes obtinha “deriva de textura” a cada ~8–10 frames. Isso desapareceu em grande parte.
Objetos pequenos: Ponteiros de relógio, botões, parafusos. Mantêm a forma por mais tempo antes de se fundirem com o ambiente. Não é perfeito, mas há menos cortes abruptos onde um parafuso se transforma numa mancha.
Cromo e especulares: Os realces expandem menos. Notei transições mais precisas em aros e torneiras refletoras, o que mantém o frame com aspeto menos sobre-processado.

Onde não fez diferença: texto impresso detalhado na cena (rótulos, sinalização) ainda é instável. Se texto nítido e legível for crítico, eu ainda o comporia posteriormente.

Camada de Áudio Reconstruída: Geração Mais Limpa, Menos Artefactos

As gerações condicionadas por áudio parecem mais estáveis. No LTX‑2, conseguia ouvir faseamento ou distorção subtis quando me apoiava em dicas rítmicas. Com a versão 2.3, isso é mais raro. Testei um click a 120 BPM com um pad de drone e, depois, uma faixa guia de palavra falada.

O que mudou para mim:

O movimento alinhado ao ritmo é mais consistente sem reduzir a exposição para “seguir” o kick.
Mais espaço em torno dos sibilantes na voz off, menos ruído que costumava borrar os frames.
Menos artefactos audíveis incorporados nas exportações. Em execuções mais antigas, às vezes ouvia um eco do condicionamento na renderização. Isso desapareceu nos meus testes.

Limitações: Ainda não é alinhamento de movimento por frame para batida. Se precisar de marcadores de batida perfeitos, terá de aparar na pós-produção.

Para Que Serve (e Não Serve) o Áudio-para-Vídeo

O áudio-para-vídeo na versão 2.3 é bom para moldar energia e ritmo. Não é ótimo para sincronização labial ou coreografia precisa.

Onde me ajudou:

Reels ambiente onde o humor segue as ondas musicais. O modelo “respira” com a faixa em vez de bombear a exposição.
Clipes de produto com whooshes suaves, as transições parecem guiadas em vez de aleatórias.

Onde não ajudou:

Sincronização labial com um monólogo. As formas da boca ainda derivam. Não confiaria nisto para cabeças a falar.
Cortes exatos no ritmo ou passos de dança. É suficiente para criar ambiente, não para contagens precisas.

Por isso, uso-o como camada de scaffolding: obtenho a sensação de movimento a partir do áudio, depois bloqueio as edições num NLE real.

Retrato 9:16 e Novas Opções de Taxa de Fotogramas (24 / 48 FPS)

O retrato nativo 9:16 finalmente eliminou o meu processo de recorte complicado. As composições verticais parecem mais intencionais, enquadramento, não apenas corte. Voltei a correr uma sequência de café que tinha filmado no LTX‑2 (recortada de paisagem) e a passagem vertical da versão 2.3 deu-me uma disciplina de bordas mais limpa à volta de mãos e chávenas.

Sobre as taxas de fotogramas:

24 fps: O movimento parece cinemático mas pode trepidar em panorâmicas rápidas. Ainda é a minha predefinição para ambientes narrativos.
48 fps: Movimento mais suave sem o aspeto de telenovela que temia. Útil para rotações de produto e detalhes macro, especialmente quando combinado com os novos upscalers.

Um pequeno atrito: os 48 fps duplicam a carga de revisão. Comecei a exportar segmentos curtos para verificação, caso contrário perderia pequenos artefactos escondidos entre frames.

Upscalers Espaciais e Temporais: Como Funcionam em Conjunto

Costumava fazer upscaling espacial numa ferramenta separada e aceitar a instabilidade temporal como o preço a pagar. Os upscalers emparelhados do LTX‑2.3 reduzem essa troca.

Como os usei:

Gerar numa base confortável (cerca de 720p), aprovar o movimento.
Upscaler espacial para elevar o detalhe.
Upscaler temporal para estabilizar entre frames.

O que notei:

Fazer o temporal por último evita o velho problema de “frames individuais bonitos, sequência instável”.
O par elimina 1–2 passagens do meu pipeline. Parei de ir e vir a denoisers externos para a maioria dos clipes.
Caso de falha: se o movimento base já é caótico, o upscaling temporal pode borrar o micro-movimento. Corrigi isso reduzindo a intensidade do movimento antes do upscaling.

Não é magia, mas é a parte mais “amigável para sistemas” do lançamento para mim.

Escala de 22B: O Que o Salto nos Parâmetros Muda (e Não Muda)

Modelos maiores conseguem lembrar mais contexto e generalizar melhor. Isso apareceu aqui como persistência de objetos mais estável ao longo de 6–10 segundos e uma adesão ligeiramente melhor a prompts com múltiplas cláusulas.

Mudanças que senti:

Menos trocas de objetos a meio da sequência (a caneca vermelha fica vermelha por mais tempo).
As instruções de estilo são cumpridas de forma mais fiável.

O que não corrige:

Lógica espacial complexa (ex.: “a câmara passa atrás da cadeira, depois revela um espelho mostrando…”). Ainda precisa de prompts cuidadosos e às vezes de uma passagem de storyboard.
Renderização perfeita de texto na cena. Ainda é um problema.

Custos:

Maior necessidade de VRAM e latência mais longa no primeiro token. A minha máquina local (24 GB de VRAM) aguentou execuções curtas na resolução base; qualquer coisa mais ambiciosa precisou de tiling ou offload.
Aquecimentos ligeiramente mais longos. Não é enorme, mas notável se iterar rapidamente.

Quem Deve Prestar Atenção Agora

Construtores (ferramentas, nodes, fluxos de trabalho personalizados): O novo VAE e os upscalers valem a pena integrar. Eliminam dois tickets de suporte comuns do tipo “porque é que treme?”. Se distribuir predefinições, considere predefinições de orientação conservadoras para evitar aspetos sobre-nítidos.
Equipas de produto: A consistência do áudio e o suporte 9:16 reduzem o atrito para saída de redes sociais. Se os seus utilizadores tendem para reels, 48 fps + upscaling temporal é uma atualização tranquila. Não sobrevalorize a sincronização labial, ainda não está lá.
Criadores: Se lutou contra a deriva de textura ou odiou o seu processo de corte para vertical, a versão 2.3 é um lançamento de qualidade de vida. Se estava à espera de texto perfeito ou lógica de história rigorosa, pode esperar com segurança.

A minha matemática resumida: menos máscaras de limpeza, menos passagens externas. Não é espetacular, mas aceito.

FAQ

Quais são os requisitos de VRAM para o LTX-2.3 localmente?

O que corri: 24 GB aguentou gerações curtas na resolução base (cerca de 720p) com espaço para pequenos lotes. Para 1080p ou clipes mais longos, precisei de tiling e ocasionalmente de offload para CPU. Se tiver 12–16 GB, espere execuções mais lentas e limites mais apertados. As suas necessidades exatas variarão com o amostrador, comprimento de contexto e se ativa ambos os upscalers.

Se for novo em ajuste de memória, as notas do PyTorch sobre gestão de memória CUDA são uma boa introdução.

O LTX-2.3 é retrocompatível com os fluxos de trabalho existentes do LTX-2 no ComfyUI?

Na maioria das vezes, sim em espírito, mas tive de trocar nodes para o novo VAE e ajustar a orientação. Os meus gráficos ComfyUI mais antigos do LTX‑2 carregaram, mas reclamaram de alguns campos obsoletos. Dez minutos de limpeza de nodes resolveram. Se trabalha no Comfy, fique de olho no carregador de modelos e nos nodes VAE. O repositório principal do ComfyUI está aqui se precisar de referências: ComfyUI no GitHub.

O LTX-2.3 pode ser usado comercialmente?

Não sou advogada. Verifiquei a licença nas notas de lançamento e parecia padrão para uso comercial com as restrições habituais (atribuição/uso aceitável). Se o seu projeto envolver risco, campanhas de marca, transmissão, leia a licença linha por linha e guarde uma cópia local.

A API está disponível no lançamento?

Usei execuções locais e um endpoint hospedado durante os testes. A API hospedada foi indicada como disponível nas notas, com algumas quotas. Se depender de funcionalidades da API (webhooks, tentativas, tarefas de longa duração), verifique isso nos documentos oficiais antes de comprometer pipelines.

O LTX-2.3 suporta fine-tuning com LoRA?

Vi hooks LoRA expostos de forma muito semelhante ao LTX‑2, com uma nota de compatibilidade sobre o codificador de texto atualizado. Na prática, os meus LoRAs antigos carregaram mas precisaram de reajuste (reduzir a intensidade um pouco para evitar artefactos de sobreajuste). Se depender de fine-tunes, reserve tempo para recalibração.

Comecei por causa de um fecho. Termino com menos passagens de limpeza e um hack de recorte a menos. Não é dramático, apenas… mais leve. É suficiente para mim nesta ronda.

LTX-2 vs LTX-2.3 em Resumo

Novo VAE — O Que Mais Detalhe Fino Realmente Significa para a Saída

Onde Vai Ver a Diferença (Rostos, Texturas, Objetos Pequenos, Cromo)

Camada de Áudio Reconstruída: Geração Mais Limpa, Menos Artefactos

Para Que Serve (e Não Serve) o Áudio-para-Vídeo

Retrato 9:16 e Novas Opções de Taxa de Fotogramas (24 / 48 FPS)

Upscalers Espaciais e Temporais: Como Funcionam em Conjunto

Escala de 22B: O Que o Salto nos Parâmetros Muda (e Não Muda)

Quem Deve Prestar Atenção Agora

FAQ

Quais são os requisitos de VRAM para o LTX-2.3 localmente?

O LTX-2.3 é retrocompatível com os fluxos de trabalho existentes do LTX-2 no ComfyUI?

O LTX-2.3 pode ser usado comercialmente?

A API está disponível no lançamento?

O LTX-2.3 suporta fine-tuning com LoRA?

Posts Anteriores:

Artigos relacionados

Apresentando o ByteDance Seedance 2.0 Mini no WaveSpeedAI

Claude Fable 5 com Fallback para Opus 4.8 Explicado

API do GLM-5.2: Preços, Contexto de 1M e Roteamento em Produção

Preços do GPT-5.4 Mini: Custo de Entrada, Cache e Saída

API MAI-Image-2.5: O Que os Desenvolvedores Precisam Saber

Preço do MiniMax M3: Custo de API de Contexto Longo para Desenvolvedores