Guia de Vídeo Retrato LTX-2.3: Workflows 9:16 para Redes Sociais e Mobile (2026)

Olá, sou a Dora!

Estive esperando por um modelo de vídeo que trate o formato retrato como prioridade, não como algo secundário. A maioria das ferramentas ainda gera vídeos em paisagem e deixa você recortar. O LTX-2.3 muda isso — ele gera vídeo vertical com até 1080×1920, treinado com dados em orientação retrato, não recortado a partir de paisagem. Para equipes de redes sociais que trabalham com TikTok e Reels, essa distinção importa mais do que parece.

Por Que o Suporte Nativo ao Formato Retrato Importa (vs Recorte de Paisagem)

O Que “Treinado com Dados em Retrato” Significa para a Qualidade do Output

Quando um modelo gera em 16:9 e você recorta para 9:16, ele não estava compondo para o vertical. Os sujeitos ficam descentrados, o céu preenche o terço inferior e os caminhos de movimento parecem estranhos numa tela de celular.

O LTX-2.3 está disponível tanto como modelo open-source quanto através da API LTX, com suporte a retrato integrado ao pipeline de treinamento — não adicionado depois. O modelo viu composições verticais em primeiro plano durante o treinamento, o que significa que o posicionamento do sujeito, os arcos de movimento e o movimento de câmera estão todos calibrados para visualização em frame alto.

O suporte a retrato 9:16 entrega qualidade significativamente melhorada para vídeos verticais em retrato, perfeito para redes sociais e mobile. Isso não é linguagem de marketing — é uma diferença estrutural em como os pesos do modelo lidam com relações espaciais específicas por proporção de aspecto.

Configurações de Resolução e Taxa de Quadros para 9:16

Configuração 1080×1920 no ComfyUI e via API

O padrão prático é 720p (736×1280) para 9:16. Se você tiver uma GPU poderosa como uma RTX 5090 ou superior, experimente 1088×1920 para qualidade full 1080p.

No ComfyUI com os nós oficiais do LTXVideo, defina seu nó de resolução para 768×1280 para um bom equilíbrio entre VRAM e qualidade em uma placa de 24GB. Para usuários de API, a documentação da API LTX aceita aspect_ratio: "9:16" junto ao seu parâmetro de resolução — cálculo manual das dimensões necessário.

Via API (configuração mínima):

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

24 vs 48 FPS para Plataformas Sociais: Qual Usar

O LTX-2.3 introduziu 24/48 FPS como novas opções de taxa de quadros, além dos 25/50 FPS já existentes.

Para redes sociais: use 24fps para a maioria dos conteúdos. TikTok e Reels fazem transcodificação no upload, e 24fps oferece mais margem sem inflar o tamanho do arquivo. Codifique uma vez em 48fps e converta depois se necessário — isso oferece mais flexibilidade em pós-produção. Reserve 48fps para conteúdo onde a suavidade do movimento é o diferencial (dança, revelações de produtos, emulação de câmera lenta).

Prompts para Composição Vertical

Linguagem de Enquadramento Orientada ao Vertical

O modelo responde a linguagem de enquadramento. Para output em retrato, comece com indicações de orientação antes de descrever o sujeito:

✅ frame vertical, close-up retrato, sujeito centralizado na metade superior...
✅ composição para tela de celular, plano vertical de corpo inteiro, espaço negativo abaixo...
❌ plano geral aberto, paisagem panorâmica... (puxa para composição horizontal)

Posicionamento do Sujeito e Como Evitar Outputs com Viés Paisagem

Mesmo com treinamento nativo em retrato, o modelo pode derivar para composições horizontais quando o prompt usa linguagem de cena ampla. Se seu sujeito continua derivando para centro-largo em vez de superior-vertical: adicione âncoras verticais explícitas como frame alto, espaço negativo vertical, ou orientação retrato, rosto no terço superior.

Para conteúdo de talking-head ou avatar, a implementação do LTX-2.3 pela WaveSpeed observa que clipes em retrato funcionam melhor quando você descreve o movimento em relação a um eixo vertical — inclinações de câmera, panorâmicas verticais e planos ascendentes reforçam o frame alto.

Áudio em Workflows de Retrato: O Que Incluir e O Que Pular

Quando o Áudio Nativo Agrega Valor para Redes Sociais (Ambiente, Conteúdo com Som Ativo)

Efeitos sonoros, ruído ambiente e diálogos são sincronizados desde a geração — um endpoint dedicado de áudio para vídeo permite fornecer um clipe de áudio e gerar visuais correspondentes.

Use áudio nativo quando: seu conteúdo tem som ativo (cenas ambientes, clipes de natureza, energia de multidão). As melhorias de áudio do LTX-2.3 tornam o som atmosférico genuinamente utilizável sem pós-processamento — artefatos reduzidos, diálogos mais limpos.

Quando Pular o Áudio e Adicionar em Pós-Produção

Pule o áudio nativo para conteúdo com narração em voz, sincronização musical, som de marca ou qualquer coisa que exija edição precisa de áudio. Gere apenas o vídeo e depois adicione o áudio no seu NLE. A variante Pro é necessária para os endpoints de áudio para vídeo, retake e extend — se você está apenas gerando vídeo para uma faixa musical que adicionará em pós, a variante Fast economiza custo e tempo.

Workflow de Produção em Lote para Equipes de Redes Sociais

Pipeline de Storyboard para Clipe em Alto Volume de Output

Para equipes gerando 20+ clipes por dia, o pipeline prático é:

Roteiro → storyboard com notas de enquadramento específicas para retrato por cena
Prompts em lote via API LTX — a API é stateless, então requisições paralelas rodam de forma independente
Passagem de QC — sinalize outputs com deriva do sujeito ou viés paisagem para regeneração
Camada de áudio em pós se o conteúdo for guiado por música

Usando a Variante Fast para Rascunhos e Pro para Finais

Comece com Fast para explorar composições rapidamente, depois mude para Pro para o render final. Fast é otimizado para velocidade e baixo custo — ideal para prototipagem rápida, brainstorming, storyboarding e iteração ágil. Pro entrega maior fidelidade com melhor estabilidade de movimento e detalhes visuais.

Padrão típico de custo em lote: execute 10 rascunhos Fast para definir composição e timing, depois um render Pro para entrega. Isso reduz o custo de iteração em aproximadamente 60% comparado a rodar Pro durante todo o processo.

Extend-Video para Sequências Mais Longas Sem Regeneração

O endpoint v1/extend estende a duração do vídeo gerando frames adicionais. Para sequências em retrato com mais de 8–10 segundos, prefira extend em vez de regenerar — isso preserva a consistência do sujeito ao longo do clipe estendido. Defina uma janela de contexto de 2–3 segundos a partir do final do clipe para a costura mais suave.

Limitações e Falhas Comuns

Deriva do Sujeito em Clipes Verticais Longos

Além de 12–15 segundos, clipes em retrato podem apresentar deriva do sujeito — o modelo gradualmente desloca a posição do sujeito para o centro do frame. Solução: use Extend-Video em segmentos menores (8s + 8s) em vez de uma geração única de 16 segundos.

Quando Paisagem Recortada e Refinada Ainda Supera o Retrato Nativo

O retrato nativo nem sempre é a escolha certa. Para conteúdo de ação ampla (esportes, cenas de multidão, planos de veículos), a geração em paisagem seguida de um recorte inteligente ainda produz melhor composição horizontal e movimento natural. O modelo funciona melhor em proporções de tela cheia como 16:9 ou 21:9 — formatos retrato podem produzir resultados distorcidos para alguns tipos de conteúdo. Teste ambas as abordagens antes de se comprometer com retrato para todos os tipos de conteúdo.

O repositório GitHub ComfyUI-LTXVideo inclui workflows de referência para ambos os caminhos — útil para comparações lado a lado sem precisar reconstruir nós do zero.

Perguntas Frequentes

P1: Qual é a resolução máxima para output em retrato do LTX-2.3?

O LTX-2.3 suporta geração de texto para vídeo, imagem para vídeo e áudio para vídeo com até 1080p, incluindo vídeo retrato nativo (9:16). Na prática, 1080×1920 é o limite para retratos. Para a maioria dos workflows de redes sociais, 720p (736×1280) é o padrão prático — é mais rápido, mais barato e as plataformas fazem transcodificação de qualquer forma.

P2: O modo retrato requer LoRAs diferentes dos de paisagem?

Não. O LTX-2.3 suporta fine-tuning com LoRA, permitindo personalizar o modelo para estilos, personagens ou casos de uso específicos. LoRAs treinados em dados de paisagem geralmente se transferem para geração em retrato — o comportamento de enquadramento é controlado pelo seu prompt e configurações de resolução, não pelos pesos do LoRA em si. Dito isso, LoRAs treinados em dados específicos de retrato produzirão composições verticais mais consistentes.

P3: Como a qualidade do retrato do LTX-2.3 se compara ao Kling para conteúdo em redes sociais?

Os benchmarks diretos variam por tipo de conteúdo. A vantagem do LTX-2.3 é pesos abertos, acesso via API e treinamento nativo em retrato — Kling continua sendo apenas na nuvem, com menos transparência sobre os dados de treinamento. Para conteúdo de retratos ambientais e baseados em cena, o LTX-2.3 é competitivo em 1080p. Para sujeitos humanos altamente estilizados, o modelo fechado do Kling ainda tem vantagem em algumas categorias. Teste no seu tipo de conteúdo específico antes de decidir.

P4: Posso gerar clipes em retrato em lote via API?

Sim. A API LTX é projetada para cargas de trabalho do mundo real com desempenho previsível em qualquer volume — outputs estáveis, fidelidade consistente e confiabilidade em nível de infraestrutura. Requisições de retrato e paisagem usam o mesmo endpoint. Adicione aspect_ratio: "9:16" ao corpo da sua requisição. Consulte o changelog da API LTX para as especificações atuais dos parâmetros.

P5: O aplicativo LTX Desktop suporta geração em retrato?

O LTX Desktop é um editor de vídeo completo construído sobre o motor LTX-2.3, rodando localmente no seu hardware com pesos abertos e sem dependência de nuvem. A geração em retrato é suportada — defina a resolução para uma proporção 9:16 nas configurações de output. Observe que a plataforma fal.ai LTX-2.3 oferece uma alternativa serverless caso a VRAM local seja uma limitação para renders em retrato 1080p.

Conclusão

O suporte nativo a retrato do LTX-2.3 é uma mudança genuína no nível do treinamento, não uma solução alternativa com recorte. Para equipes de redes sociais, isso significa melhor posicionamento do sujeito, movimento mais natural e menos correções de composição na etapa de output.

As regras práticas são simples: 720p para a maioria das entregas, Fast para rascunhos e Pro para finais, Extend para qualquer coisa acima de 12 segundos. Para conteúdo de ação ampla, paisagem-seguida-de-recorte ainda vence — use a ferramenta certa para o plano.

O pipeline que você constrói agora vai perdurar. Acerte o workflow e as melhorias de qualidade virão por conta própria.

Posts anteriores: