Guía de video vertical LTX-2.3: flujos de trabajo 9:16 para redes sociales y móviles (2026)

¡Hola, soy Dora!

He estado esperando un modelo de vídeo que trate el formato vertical como un formato de primera clase, no como algo secundario. La mayoría de las herramientas todavía generan en horizontal y te dejan recortar. LTX-2.3 cambia eso — genera vídeo vertical de hasta 1080×1920, entrenado con datos en orientación vertical, no recortado desde horizontal. Para equipos de redes sociales que trabajan con flujos de TikTok y Reels, esa distinción importa más de lo que parece.

Por Qué Importa el Soporte Nativo para Vertical (vs Recorte desde Horizontal)

Qué Significa “Entrenado con Datos Verticales” para la Calidad del Resultado

Cuando un modelo genera en 16:9 y recortas a 9:16, no estaba componiendo para vertical. Los sujetos quedan descentrados, el cielo llena el tercio inferior y las trayectorias de movimiento se sienten incorrectas en la pantalla del móvil.

LTX-2.3 está disponible tanto como modelo de código abierto como a través de la API de LTX, con soporte vertical integrado en el pipeline de entrenamiento — no añadido a posteriori. El modelo ha visto composición vertical durante el entrenamiento, lo que significa que la colocación del sujeto, los arcos de movimiento y el movimiento de cámara están todos calibrados para visualización en formato alto.

El soporte vertical 9:16 ofrece una calidad notablemente mejorada para vídeos verticales en retrato, perfecta para redes sociales y móviles. Eso no es lenguaje de marketing — es una diferencia estructural en cómo los pesos del modelo gestionan las relaciones espaciales específicas de la relación de aspecto.

Configuración de Resolución y Frecuencia de Fotogramas para 9:16

Configuración 1080×1920 en ComfyUI y vía API

El valor predeterminado práctico es 720p (736×1280) para 9:16. Si tienes una GPU potente como una RTX 5090 o superior, prueba 1088×1920 para calidad completa de 1080p.

En ComfyUI con los nodos oficiales de LTXVideo, establece tu nodo de resolución en 768×1280 para un buen equilibrio entre VRAM y calidad en una tarjeta de 24GB. Para usuarios de API, la documentación de la API de LTX acepta aspect_ratio: "9:16" junto con tu parámetro de resolución — se requiere el cálculo manual de dimensiones.

Vía API (configuración mínima):

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

24 vs 48 FPS para Plataformas Sociales: Cuál Usar

LTX-2.3 introdujo 24/48 FPS como nuevas opciones de frecuencia de fotogramas junto a los 25/50 FPS ya existentes.

Para redes sociales: usa 24fps para la mayoría del contenido. TikTok y Reels transcodifican al subir, y 24fps te da el mayor margen sin inflar el tamaño del archivo. Codifica una vez a 48fps y convierte después si es necesario — te da la mayor flexibilidad en postproducción. Reserva 48fps para contenido donde la fluidez del movimiento es un punto de venta (danza, presentaciones de productos, emulación de cámara lenta).

Prompts para Composición Vertical

Lenguaje de Encuadre Vertical

El modelo responde al lenguaje de encuadre. Para salida vertical, comienza con indicaciones de orientación antes de describir el sujeto:

✅ encuadre vertical, primer plano de retrato, sujeto centrado en la mitad superior...
✅ composición para pantalla de móvil, plano vertical de cuerpo completo, espacio negativo abajo...
❌ plano general amplio, paisaje panorámico... (empuja hacia composición horizontal)

Colocación del Sujeto y Cómo Evitar Resultados con Sesgo Horizontal

Incluso con entrenamiento nativo en vertical, el modelo puede derivar hacia composiciones horizontales cuando se usan indicaciones de escenas amplias. Si tu sujeto sigue desviándose al centro-amplio en lugar de al tercio superior vertical: añade anclajes verticales explícitos como encuadre alto, espacio negativo vertical u orientación vertical, rostro en el tercio superior.

Para contenido de cabeza parlante o avatar, la implementación de LTX-2.3 de WaveSpeed indica que los clips verticales funcionan mejor cuando describes el movimiento en relación a un eje vertical — las inclinaciones de cámara, los panes verticales y los planos ascendentes refuerzan el encuadre alto.

Audio en Flujos de Trabajo Verticales: Qué Incluir y Qué Omitir

Cuándo el Audio Nativo Añade Valor para Redes Sociales (Ambiente, Contenido con Sonido)

Los efectos de sonido, el ruido ambiental y los diálogos se sincronizan desde la generación — un endpoint dedicado de audio a vídeo te permite proporcionar un clip de audio y generar visuales coincidentes.

Usa audio nativo cuando: tu contenido tiene sonido activado (escenas ambientales, clips de naturaleza, energía de multitudes). Las mejoras de audio de LTX-2.3 hacen que el sonido atmosférico sea genuinamente utilizable sin postprocesamiento — artefactos reducidos, diálogos más limpios.

Cuándo Omitir el Audio y Añadirlo en Postproducción

Omite el audio nativo para contenido con voz en off, sincronización de música, sonido de marca o cualquier cosa que requiera edición de audio precisa. Genera solo el vídeo y luego añade el audio en tu NLE. La variante Pro es necesaria para los endpoints de audio a vídeo, retoma y extensión — si solo estás generando vídeo para una pista musical que añadirás en postproducción, la variante Fast ahorra coste y tiempo.

Flujo de Trabajo de Producción por Lotes para Equipos de Redes Sociales

Pipeline de Guion Gráfico a Clip para Producción de Alto Volumen

Para equipos que generan 20+ clips por día, el pipeline práctico es:

Guion → guion gráfico con notas de encuadre vertical específicas por plano
Prompts por lotes vía API de LTX — la API es sin estado, por lo que las solicitudes paralelas se ejecutan de forma independiente
Control de calidad — marca las salidas con deriva del sujeto o sesgo horizontal para regeneración
Capa de audio en postproducción si el contenido va guiado por música

Usar la Variante Fast para Borradores, Pro para Finales

Comienza con Fast para explorar composiciones rápidamente, luego cambia a Pro para el renderizado final. Fast está optimizado para velocidad y bajo coste — ideal para prototipado rápido, lluvia de ideas, guiones gráficos e iteración ágil. Pro ofrece mayor fidelidad con mejor estabilidad de movimiento y detalle visual.

Patrón típico de coste por lotes: ejecuta 10 borradores en Fast para fijar la composición y el ritmo, luego un renderizado en Pro para la entrega. Esto reduce el coste de iteración aproximadamente un 60% en comparación con usar Pro en todo el proceso.

Extend-Video para Secuencias Más Largas Sin Regeneración

El endpoint v1/extend extiende la duración del vídeo generando fotogramas adicionales. Para secuencias verticales de más de 8-10 segundos, extiende en lugar de regenerar — preserva la consistencia del sujeto a lo largo del clip extendido. Establece una ventana de contexto de 2-3 segundos desde el final del clip para la unión más suave.

Limitaciones y Fallos Comunes

Deriva del Sujeto en Clips Verticales Largos

A partir de 12-15 segundos, los clips verticales pueden mostrar deriva del sujeto — el modelo desplaza gradualmente la posición del sujeto hacia el centro del encuadre. Solución: usa Extend-Video en segmentos más cortos (8s + 8s) en lugar de una generación de 16 segundos.

Cuándo el Paisaje Recortado y Refinado Supera al Vertical Nativo

El vertical nativo no siempre es la mejor opción. Para contenido de acción amplia (deportes, escenas de multitudes, planos de vehículos), la generación horizontal seguida de un recorte inteligente sigue produciendo mejor composición horizontal y movimiento natural. El modelo funciona mejor con relaciones de aspecto panorámicas como 16:9 o 21:9 — los formatos verticales pueden producir resultados distorsionados para algunos tipos de contenido. Prueba ambos enfoques antes de comprometerte con el formato vertical para cada tipo de contenido.

El repositorio de GitHub ComfyUI-LTXVideo incluye flujos de trabajo de referencia para ambas opciones — útil para comparación en paralelo sin reconstruir nodos desde cero.

Preguntas Frecuentes

P1: ¿Cuál es la resolución máxima para la salida vertical de LTX-2.3?

LTX-2.3 admite generación de texto a vídeo, imagen a vídeo y audio a vídeo hasta 1080p, incluido vídeo vertical nativo (9:16). En la práctica, 1080×1920 es el límite para los formatos verticales. Para la mayoría de los flujos de trabajo en redes sociales, 720p (736×1280) es el valor predeterminado práctico — es más rápido, más económico y las plataformas transcodifican de todos modos.

P2: ¿El modo vertical requiere LoRAs diferentes a los del horizontal?

No. LTX-2.3 admite ajuste fino con LoRA, lo que te permite personalizar el modelo para estilos, personajes o casos de uso específicos. Los LoRAs entrenados con datos horizontales generalmente se transfieren a la generación vertical — el comportamiento de encuadre se controla mediante los ajustes de tu prompt y resolución, no por los pesos del LoRA en sí. Dicho esto, los LoRAs entrenados con datos específicamente verticales producirán composiciones verticales más consistentes.

P3: ¿Cómo se compara la calidad vertical de LTX-2.3 con Kling para contenido en redes sociales?

Los benchmarks directos varían según el tipo de contenido. La ventaja de LTX-2.3 es el acceso de código abierto, acceso a la API y entrenamiento nativo en vertical — Kling sigue siendo solo en la nube con menos transparencia sobre los datos de entrenamiento. Para contenido vertical ambiental y basado en escenas, LTX-2.3 es competitivo a 1080p. Para sujetos humanos muy estilizados, el modelo cerrado de Kling todavía tiene ventaja en algunas categorías. Prueba con tu tipo de contenido específico antes de decidir.

P4: ¿Puedo generar clips verticales por lotes vía API?

Sí. La API de LTX está diseñada para cargas de trabajo del mundo real con rendimiento predecible a cualquier volumen — salidas estables, fidelidad consistente y fiabilidad a nivel de infraestructura. Las solicitudes verticales y horizontales usan el mismo endpoint. Añade aspect_ratio: "9:16" al cuerpo de tu solicitud. Consulta el registro de cambios de la API de LTX para las especificaciones actuales de parámetros.

P5: ¿Admite la aplicación LTX Desktop la generación en vertical?

LTX Desktop es un editor de vídeo completo construido sobre el motor LTX-2.3, que se ejecuta localmente en tu hardware con pesos abiertos y sin dependencia de la nube. La generación vertical está soportada — establece la resolución en una proporción 9:16 en la configuración de salida. Ten en cuenta que la plataforma fal.ai LTX-2.3 ofrece una alternativa sin servidor si la VRAM local es una limitación para renderizados verticales en 1080p.

Conclusión

El soporte nativo para vertical de LTX-2.3 es un cambio genuino a nivel de entrenamiento, no una solución de recorte. Para equipos de redes sociales, eso significa mejor colocación del sujeto, movimiento más natural y menos correcciones de composición en la etapa de salida.

Las reglas prácticas son simples: 720p para la mayoría de las entregas, Fast para borradores y Pro para finales, Extend para todo lo que supere los 12 segundos. Para contenido de acción amplia, el paisaje recortado sigue ganando — usa la herramienta adecuada para cada plano.

El pipeline que construyas ahora seguirá siendo válido. Domina el flujo de trabajo y las mejoras de calidad vendrán por sí solas.

Artículos anteriores: