Guia de Vídeo Retrato LTX-2.3: Workflows 9:16 para Redes Sociais e Mobile (2026)
O LTX-2.3 gera nativamente vídeos no formato retrato 9:16 de até 1080×1920 — sem cortes. Veja como configurar, criar prompts e produzir em lote clipes verticais prontos para redes sociais em 2026.
Olá, sou a Dora!
Estive esperando por um modelo de vídeo que trate o formato retrato como prioridade, não como algo secundário. A maioria das ferramentas ainda gera vídeos em paisagem e deixa você recortar. O LTX-2.3 muda isso — ele gera vídeo vertical com até 1080×1920, treinado com dados em orientação retrato, não recortado a partir de paisagem. Para equipes de redes sociais que trabalham com TikTok e Reels, essa distinção importa mais do que parece.

Por Que o Suporte Nativo ao Formato Retrato Importa (vs Recorte de Paisagem)
O Que “Treinado com Dados em Retrato” Significa para a Qualidade do Output
Quando um modelo gera em 16:9 e você recorta para 9:16, ele não estava compondo para o vertical. Os sujeitos ficam descentrados, o céu preenche o terço inferior e os caminhos de movimento parecem estranhos numa tela de celular.
O LTX-2.3 está disponível tanto como modelo open-source quanto através da API LTX, com suporte a retrato integrado ao pipeline de treinamento — não adicionado depois. O modelo viu composições verticais em primeiro plano durante o treinamento, o que significa que o posicionamento do sujeito, os arcos de movimento e o movimento de câmera estão todos calibrados para visualização em frame alto.
O suporte a retrato 9:16 entrega qualidade significativamente melhorada para vídeos verticais em retrato, perfeito para redes sociais e mobile. Isso não é linguagem de marketing — é uma diferença estrutural em como os pesos do modelo lidam com relações espaciais específicas por proporção de aspecto.
Configurações de Resolução e Taxa de Quadros para 9:16
Configuração 1080×1920 no ComfyUI e via API
O padrão prático é 720p (736×1280) para 9:16. Se você tiver uma GPU poderosa como uma RTX 5090 ou superior, experimente 1088×1920 para qualidade full 1080p.
No ComfyUI com os nós oficiais do LTXVideo, defina seu nó de resolução para 768×1280 para um bom equilíbrio entre VRAM e qualidade em uma placa de 24GB. Para usuários de API, a documentação da API LTX aceita aspect_ratio: "9:16" junto ao seu parâmetro de resolução — cálculo manual das dimensões necessário.

Via API (configuração mínima):
model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24
24 vs 48 FPS para Plataformas Sociais: Qual Usar
O LTX-2.3 introduziu 24/48 FPS como novas opções de taxa de quadros, além dos 25/50 FPS já existentes.
Para redes sociais: use 24fps para a maioria dos conteúdos. TikTok e Reels fazem transcodificação no upload, e 24fps oferece mais margem sem inflar o tamanho do arquivo. Codifique uma vez em 48fps e converta depois se necessário — isso oferece mais flexibilidade em pós-produção. Reserve 48fps para conteúdo onde a suavidade do movimento é o diferencial (dança, revelações de produtos, emulação de câmera lenta).
Prompts para Composição Vertical
Linguagem de Enquadramento Orientada ao Vertical
O modelo responde a linguagem de enquadramento. Para output em retrato, comece com indicações de orientação antes de descrever o sujeito:
- ✅
frame vertical, close-up retrato, sujeito centralizado na metade superior... - ✅
composição para tela de celular, plano vertical de corpo inteiro, espaço negativo abaixo... - ❌
plano geral aberto, paisagem panorâmica...(puxa para composição horizontal)
Posicionamento do Sujeito e Como Evitar Outputs com Viés Paisagem
Mesmo com treinamento nativo em retrato, o modelo pode derivar para composições horizontais quando o prompt usa linguagem de cena ampla. Se seu sujeito continua derivando para centro-largo em vez de superior-vertical: adicione âncoras verticais explícitas como frame alto, espaço negativo vertical, ou orientação retrato, rosto no terço superior.
Para conteúdo de talking-head ou avatar, a implementação do LTX-2.3 pela WaveSpeed observa que clipes em retrato funcionam melhor quando você descreve o movimento em relação a um eixo vertical — inclinações de câmera, panorâmicas verticais e planos ascendentes reforçam o frame alto.

Áudio em Workflows de Retrato: O Que Incluir e O Que Pular
Quando o Áudio Nativo Agrega Valor para Redes Sociais (Ambiente, Conteúdo com Som Ativo)
Efeitos sonoros, ruído ambiente e diálogos são sincronizados desde a geração — um endpoint dedicado de áudio para vídeo permite fornecer um clipe de áudio e gerar visuais correspondentes.
Use áudio nativo quando: seu conteúdo tem som ativo (cenas ambientes, clipes de natureza, energia de multidão). As melhorias de áudio do LTX-2.3 tornam o som atmosférico genuinamente utilizável sem pós-processamento — artefatos reduzidos, diálogos mais limpos.
Quando Pular o Áudio e Adicionar em Pós-Produção
Pule o áudio nativo para conteúdo com narração em voz, sincronização musical, som de marca ou qualquer coisa que exija edição precisa de áudio. Gere apenas o vídeo e depois adicione o áudio no seu NLE. A variante Pro é necessária para os endpoints de áudio para vídeo, retake e extend — se você está apenas gerando vídeo para uma faixa musical que adicionará em pós, a variante Fast economiza custo e tempo.
Workflow de Produção em Lote para Equipes de Redes Sociais
Pipeline de Storyboard para Clipe em Alto Volume de Output
Para equipes gerando 20+ clipes por dia, o pipeline prático é:
- Roteiro → storyboard com notas de enquadramento específicas para retrato por cena
- Prompts em lote via API LTX — a API é stateless, então requisições paralelas rodam de forma independente
- Passagem de QC — sinalize outputs com deriva do sujeito ou viés paisagem para regeneração
- Camada de áudio em pós se o conteúdo for guiado por música
Usando a Variante Fast para Rascunhos e Pro para Finais
Comece com Fast para explorar composições rapidamente, depois mude para Pro para o render final. Fast é otimizado para velocidade e baixo custo — ideal para prototipagem rápida, brainstorming, storyboarding e iteração ágil. Pro entrega maior fidelidade com melhor estabilidade de movimento e detalhes visuais.
Padrão típico de custo em lote: execute 10 rascunhos Fast para definir composição e timing, depois um render Pro para entrega. Isso reduz o custo de iteração em aproximadamente 60% comparado a rodar Pro durante todo o processo.
Extend-Video para Sequências Mais Longas Sem Regeneração
O endpoint v1/extend estende a duração do vídeo gerando frames adicionais. Para sequências em retrato com mais de 8–10 segundos, prefira extend em vez de regenerar — isso preserva a consistência do sujeito ao longo do clipe estendido. Defina uma janela de contexto de 2–3 segundos a partir do final do clipe para a costura mais suave.
Limitações e Falhas Comuns
Deriva do Sujeito em Clipes Verticais Longos
Além de 12–15 segundos, clipes em retrato podem apresentar deriva do sujeito — o modelo gradualmente desloca a posição do sujeito para o centro do frame. Solução: use Extend-Video em segmentos menores (8s + 8s) em vez de uma geração única de 16 segundos.
Quando Paisagem Recortada e Refinada Ainda Supera o Retrato Nativo
O retrato nativo nem sempre é a escolha certa. Para conteúdo de ação ampla (esportes, cenas de multidão, planos de veículos), a geração em paisagem seguida de um recorte inteligente ainda produz melhor composição horizontal e movimento natural. O modelo funciona melhor em proporções de tela cheia como 16:9 ou 21:9 — formatos retrato podem produzir resultados distorcidos para alguns tipos de conteúdo. Teste ambas as abordagens antes de se comprometer com retrato para todos os tipos de conteúdo.
O repositório GitHub ComfyUI-LTXVideo inclui workflows de referência para ambos os caminhos — útil para comparações lado a lado sem precisar reconstruir nós do zero.

Perguntas Frequentes
P1: Qual é a resolução máxima para output em retrato do LTX-2.3?
O LTX-2.3 suporta geração de texto para vídeo, imagem para vídeo e áudio para vídeo com até 1080p, incluindo vídeo retrato nativo (9:16). Na prática, 1080×1920 é o limite para retratos. Para a maioria dos workflows de redes sociais, 720p (736×1280) é o padrão prático — é mais rápido, mais barato e as plataformas fazem transcodificação de qualquer forma.
P2: O modo retrato requer LoRAs diferentes dos de paisagem?
Não. O LTX-2.3 suporta fine-tuning com LoRA, permitindo personalizar o modelo para estilos, personagens ou casos de uso específicos. LoRAs treinados em dados de paisagem geralmente se transferem para geração em retrato — o comportamento de enquadramento é controlado pelo seu prompt e configurações de resolução, não pelos pesos do LoRA em si. Dito isso, LoRAs treinados em dados específicos de retrato produzirão composições verticais mais consistentes.
P3: Como a qualidade do retrato do LTX-2.3 se compara ao Kling para conteúdo em redes sociais?
Os benchmarks diretos variam por tipo de conteúdo. A vantagem do LTX-2.3 é pesos abertos, acesso via API e treinamento nativo em retrato — Kling continua sendo apenas na nuvem, com menos transparência sobre os dados de treinamento. Para conteúdo de retratos ambientais e baseados em cena, o LTX-2.3 é competitivo em 1080p. Para sujeitos humanos altamente estilizados, o modelo fechado do Kling ainda tem vantagem em algumas categorias. Teste no seu tipo de conteúdo específico antes de decidir.
P4: Posso gerar clipes em retrato em lote via API?
Sim. A API LTX é projetada para cargas de trabalho do mundo real com desempenho previsível em qualquer volume — outputs estáveis, fidelidade consistente e confiabilidade em nível de infraestrutura. Requisições de retrato e paisagem usam o mesmo endpoint. Adicione aspect_ratio: "9:16" ao corpo da sua requisição. Consulte o changelog da API LTX para as especificações atuais dos parâmetros.
P5: O aplicativo LTX Desktop suporta geração em retrato?
O LTX Desktop é um editor de vídeo completo construído sobre o motor LTX-2.3, rodando localmente no seu hardware com pesos abertos e sem dependência de nuvem. A geração em retrato é suportada — defina a resolução para uma proporção 9:16 nas configurações de output. Observe que a plataforma fal.ai LTX-2.3 oferece uma alternativa serverless caso a VRAM local seja uma limitação para renders em retrato 1080p.

Conclusão
O suporte nativo a retrato do LTX-2.3 é uma mudança genuína no nível do treinamento, não uma solução alternativa com recorte. Para equipes de redes sociais, isso significa melhor posicionamento do sujeito, movimento mais natural e menos correções de composição na etapa de output.
As regras práticas são simples: 720p para a maioria das entregas, Fast para rascunhos e Pro para finais, Extend para qualquer coisa acima de 12 segundos. Para conteúdo de ação ampla, paisagem-seguida-de-recorte ainda vence — use a ferramenta certa para o plano.
O pipeline que você constrói agora vai perdurar. Acerte o workflow e as melhorias de qualidade virão por conta própria.
Posts anteriores:
- O Que Há de Novo no LTX-2.3 (Análise da Atualização de 2026)
- LTX-2.3 vs Wan 2.2: Comparação Completa para Workflows de Vídeo com IA
- Guia de Endpoints da API LTX-2.3 (Referência Completa para Desenvolvedores)
- Como Configurar o LTX-2.3 no ComfyUI (Guia de Pipeline em Dois Estágios)
- Guia de Treinamento de LoRA para LTX-2.3 (Tutorial Avançado 2026)



