LTX-2.3: Novedades en el Modelo de Vídeo de 22B Parámetros de Lightricks (2026)

Hola a todos, soy Dora. Una pequeña cosa me impulsó a probar  LTX‑2.3 la semana pasada: un clip de 4 segundos donde las cremalleras de una chaqueta seguían fundiéndose con la tela. No estaba buscando un nuevo modelo. Solo quería que las cremalleras parecieran cremalleras sin tener que ajustar durante una hora. Así que aparté una tarde y ejecuté un puñado de los mismos prompts y señales de audio que he usado desde LTX‑2. Las notas a continuación no son un recorrido por las funciones. Son los puntos donde la versión realmente cambió mi día, y los puntos donde no lo hizo.

LTX-2 vs LTX-2.3 de un vistazo

Esta es la instantánea que desearía haber tenido antes de empezar. Comparto lo que observé y lo que se indica en las notas de la versión. Si algo parece aproximado, es a propósito.

Parámetros	~10–14B (escala de generación anterior)	~22B (indicado por el proveedor: contexto más amplio)
VAE	VAE estándar: micro‑detalle más suave	Nuevo VAE de alta fidelidad: bordes finos más nítidos: gradientes más limpios
Codificador de texto	Buena adherencia al prompt: cierta confusión con objetos pequeños	Actualización con mejor anclaje de objetos pequeños y transferencia de estilo
Audio	Condicionamiento de audio básico: phasing/distorsión ocasional	Capa de audio reconstruida: condicionamiento más limpio: menos artefactos
Base/Salida	Estable en 720p base: soporte de retrato mediante hacks	Retrato nativo 9:16: misma base pero mejores escaladores
Nuevo	/	Mejoras de audio‑a‑video, escaladores espaciales + temporales, opciones de 24/48 FPS

Dos conclusiones rápidas de esta tabla: la actualización del VAE es el héroe silencioso para los visuales, y la pila de audio se siente menos frágil. El salto en parámetros ayuda con la consistencia, pero no corrige mágicamente la lógica del storyboard ni la tipografía exacta.

Nuevo VAE — Qué significa realmente el detalle fino más nítido en la salida

En LTX‑2, a menudo veía texturas finas “respirar” entre fotogramas, grano de tela que se veía bien en el fotograma 12 y se difuminaba en el 17. Con el nuevo VAE de LTX‑2.3, los bordes y las micro‑texturas se mantienen mejor juntos. La diferencia no es obvia como un letrero de neón: es la ausencia de pequeñas molestias.

En la práctica:

Las líneas de cabello y las pestañas no se agrupan tan rápido cuando aumenta el movimiento.
Los bordes cromados mantienen un reflejo más ajustado sin expandirse.
Los gradientes en cielos y sombras recogen menos bandas.

Esto no me ahorró tiempo al principio, seguí haciendo mis barridos habituales de denoise y seed. Pero después de tres ejecuciones, dejé de hacer máscaras de limpieza manual en joyas y cremalleras. Eso es “tiempo ahorrado” de forma lenta y acumulativa: quizás 6–8 minutos por cada clip de 10 segundos.

Advertencia: también puede generar sobre‑nitidez si se aplican prompts con mucho contraste. En esos casos reduje la guía un poco (alrededor de 5–10%) para evitar fotogramas crujientes.

Dónde verás la diferencia (Rostros, Texturas, Objetos pequeños, Cromo)

Mantuve el conjunto de pruebas reducido: tres prompts que conozco de memoria, ejecutados con las mismas semillas la semana del 18 al 24 de marzo.

Rostros: Los poros, los finos vellos del bebé y las comisuras de los ojos sobreviven mejor al movimiento. Se siente menos como “filtro de belleza” por defecto. Todavía encuentro alguna sonrisa inquietante cuando sobrerestrinjo el prompt, pero menos mejillas cerosas en general.
Texturas: Denim, lino, acero cepillado. Estas mejoraron más. El modelo respeta el patrón de tejido sin pulsar. En LTX‑2, a veces obtenía “deriva de textura” cada ~8–10 fotogramas. Eso desapareció en su mayor parte.
Objetos pequeños: Manecillas de reloj, botones, tornillos. Mantienen la forma más tiempo antes de fundirse con su entorno. No es perfecto, pero hay menos cortes bruscos donde un tornillo se convierte en una mancha.
Cromo y especulares: Los reflejos brillan menos. Noté caídas más ajustadas en llantas reflectantes y grifos, lo que evita que el fotograma parezca sobreprocesado.

Donde no movió la aguja: el texto impreso detallado en escena (etiquetas, señales) sigue siendo inestable. Si el texto nítido y legible es fundamental, yo aún lo compondría después.

Capa de audio reconstruida: generación más limpia, menos artefactos

Las generaciones condicionadas por audio se sienten más estables. En LTX‑2, podía escuchar un leve phasing o distorsión cuando me apoyaba en señales rítmicas. Con la versión 2.3, eso es más raro. Probé un click de 120 BPM con un pad de zumbido, y luego una pista guía de voz en off.

Lo que cambió para mí:

El movimiento alineado al ritmo es más consistente sin reducir la exposición para “seguir” el golpe.
Más espacio alrededor de las sibilantes en voz en off, menos ruido que solía difuminar fotogramas.
Menos artefactos audibles incorporados en las exportaciones. En ejecuciones anteriores, a veces escuchaba un eco del condicionamiento en el renderizado. Eso desapareció en mis pruebas.

Límites: Sigue sin ser una alineación de movimiento a golpe con precisión de fotograma. Si necesitas marcadores de ritmo perfectos, tendrás que recortar en posproducción.

Para qué sirve (y no sirve) el audio‑a‑video

El audio‑a‑video en la versión 2.3 es bueno para dar forma a la energía y el ritmo. No es ideal para la sincronización de labios ni para la coreografía precisa.

Donde me ayudó:

Reels ambientales donde el estado de ánimo sigue las crescendos musicales. El modelo “respira” con la pista en lugar de bombear la exposición.
Clips de producto con suaves whooshes, las transiciones se sienten guiadas en lugar de aleatorias.

Donde no ayudó:

Sincronización de labios con un monólogo. Las formas de la boca siguen derivando. No dependería de esto para primeros planos hablando.
Cortes exactos al ritmo o pasos de baile. Es suficientemente cercano para la vibra, no para los tiempos exactos.

Así que lo uso como capa de andamiaje: obtengo la sensación de movimiento del audio, luego bloqueo las ediciones en un NLE real.

Retrato 9:16 y nuevas opciones de frecuencia de fotogramas (24 / 48 FPS)

El retrato nativo 9:16 finalmente eliminó mi torpe cadena de recorte. Las composiciones verticales se ven más intencionales, encuadre, no solo recorte. Volví a ejecutar una secuencia de café que había grabado en LTX‑2 (recortada desde horizontal) y el pase vertical de la versión 2.3 me dio una disciplina de bordes más limpia alrededor de manos y tazas.

Sobre las frecuencias de fotogramas:

24 fps: El movimiento se siente cinematográfico pero puede parpadear en panorámicas rápidas. Sigue siendo mi valor predeterminado para narrativas.
48 fps: Movimiento más suave sin el aspecto de telenovela que temía. Útil para rotaciones de productos y detalles macro, especialmente cuando se combina con los nuevos escaladores.

Una pequeña fricción: 48 fps duplica la carga de revisión. Empecé a exportar segmentos cortos para las comprobaciones, de lo contrario me perdería pequeños artefactos ocultos entre fotogramas.

Escaladores espaciales y temporales: cómo funcionan juntos

Solía escalar espacialmente en una herramienta separada y aceptar el temblor temporal como precio a pagar. Los escaladores emparejados de LTX‑2.3 reducen ese compromiso.

Cómo lo ejecuté:

Generar en una base cómoda (alrededor de 720p), aprobar el movimiento.
Escalador espacial para mejorar el detalle.
Escalador temporal para estabilizar entre fotogramas.

Lo que noté:

Hacer el temporal al final evita el antiguo problema de “fotogramas individuales hermosos, secuencia temblorosa”.
El par reduce 1–2 pases de mi pipeline. Dejé de hacer ida y vuelta a denoisers externos para la mayoría de los clips.
Caso de fallo: si el movimiento base ya es caótico, el escalado temporal puede difuminar el micro‑movimiento. Lo resolví reduciendo un poco la intensidad del movimiento antes de escalar.

No es magia, pero es la parte más “amigable con los sistemas” de la versión para mí.

Escala de 22B: qué cambia (y qué no) el salto en parámetros

Los modelos más grandes pueden recordar más contexto y generalizar mejor. Eso se manifestó aquí como una persistencia de objetos más estable durante 6–10 segundos y una adherencia ligeramente mejor a los prompts de múltiples cláusulas.

Cambios que sentí:

Menos intercambios de objetos en mitad de secuencia (la taza roja se mantiene roja por más tiempo).
Las instrucciones de estilo se transmiten de forma más confiable.

Lo que no corrige:

Lógica espacial compleja (ej., “la cámara pasa detrás de la silla, luego revela un espejo que muestra…”). Todavía se necesita un prompting cuidadoso y a veces un pase de storyboard.
Renderizado de texto perfecto en escena. Sigue siendo problemático.

Costos:

Mayor necesidad de VRAM y mayor latencia del primer token. Mi equipo local (24 GB de VRAM) manejó ejecuciones cortas en resolución base: cualquier cosa ambiciosa necesitaba tiling o descarga.
Calentamientos ligeramente más largos. No es enorme, pero se nota si iteras rápido.

Quién debería prestar atención ahora

Constructores (herramientas, nodos, flujos de trabajo personalizados): El nuevo VAE y los escaladores vale la pena integrarlos. Eliminan dos tickets de soporte comunes de “¿por qué oscila?”. Si distribuyes presets, considera valores predeterminados de guía conservadores para evitar apariencias sobre‑nítidas.
Equipos de producto: La consistencia del audio y el soporte 9:16 reducen la fricción para la salida en redes sociales. Si tus usuarios se inclinan por los reels, 48 fps + escalado temporal es una actualización tranquila. No exageres la sincronización de labios, no está lista.
Creadores: Si luchaste con la deriva de texturas o detestabas tu flujo de trabajo de recorte a vertical, la versión 2.3 es una mejora de calidad de vida. Si esperabas texto perfecto o lógica narrativa hermética, puedes esperar con seguridad.

Mi cálculo breve: menos máscaras de limpieza, menos saltos externos. No es espectacular, pero lo acepto.

Preguntas frecuentes

¿Cuáles son los requisitos de VRAM para LTX-2.3 localmente?

Lo que ejecuté: 24 GB manejaron generaciones cortas en resolución base (alrededor de 720p) con espacio para pequeños lotes. Para 1080p o clips más largos, necesité tiling y descarga ocasional a CPU. Si tienes 12–16 GB, espera ejecuciones más lentas y límites más ajustados. Tus necesidades exactas variarán con el sampler, la longitud del contexto y si activas ambos escaladores.

Si eres nuevo en el ajuste de memoria, las notas de PyTorch sobre gestión de memoria CUDA son una buena introducción.

¿Es LTX-2.3 compatible con los flujos de trabajo existentes de LTX-2 en ComfyUI?

En su mayor parte sí en espíritu, pero tuve que intercambiar nodos para el nuevo VAE y ajustar la guía. Mis gráficos de ComfyUI de LTX‑2 más antiguos se cargaron, pero se quejaron de un par de campos obsoletos. Diez minutos de limpieza de nodos lo solucionaron. Si construyes en Comfy, vigila el cargador de modelos y los nodos VAE. El repositorio principal de ComfyUI está aquí si necesitas referencias: ComfyUI en GitHub.

¿Es LTX-2.3 de uso comercial?

No soy abogado. Revisé la licencia en las notas de la versión y parecía estándar para uso comercial con las restricciones habituales (atribución/uso aceptable). Si tu proyecto conlleva riesgo, campañas de marca, difusión, lee la licencia línea por línea y guarda una copia local.

¿Está disponible la API en el lanzamiento?

Usé ejecuciones locales y un endpoint alojado durante las pruebas. La API alojada estaba marcada como disponible en las notas, con algunas cuotas. Si dependes de funciones de API (webhooks, reintentos, trabajos de larga duración), verifícalas en la documentación oficial antes de comprometer pipelines.

¿Admite LTX-2.3 el ajuste fino con LoRA?

Vi ganchos de LoRA expuestos muy parecido a LTX‑2, con una nota de compatibilidad sobre el codificador de texto actualizado. En la práctica, mis LoRAs antiguas se cargaron pero necesitaron reajuste (reducir un poco la intensidad para evitar artefactos de sobreajuste). Si dependes de los ajustes finos, presupuesta tiempo para la recalibración.

Empecé esto por una cremallera. Termino con menos pases de limpieza y un hack de recorte menos. No es dramático, solo…más ligero. Eso es suficiente para mí en esta ronda.

LTX-2 vs LTX-2.3 de un vistazo

Nuevo VAE — Qué significa realmente el detalle fino más nítido en la salida

Dónde verás la diferencia (Rostros, Texturas, Objetos pequeños, Cromo)

Capa de audio reconstruida: generación más limpia, menos artefactos

Para qué sirve (y no sirve) el audio‑a‑video

Retrato 9:16 y nuevas opciones de frecuencia de fotogramas (24 / 48 FPS)

Escaladores espaciales y temporales: cómo funcionan juntos

Escala de 22B: qué cambia (y qué no) el salto en parámetros

Quién debería prestar atención ahora

Preguntas frecuentes

¿Cuáles son los requisitos de VRAM para LTX-2.3 localmente?

¿Es LTX-2.3 compatible con los flujos de trabajo existentes de LTX-2 en ComfyUI?

¿Es LTX-2.3 de uso comercial?

¿Está disponible la API en el lanzamiento?

¿Admite LTX-2.3 el ajuste fino con LoRA?

Publicaciones anteriores:

Artículos relacionados

Presentamos ByteDance Seedance 2.0 Mini en WaveSpeedAI

Claude Fable 5 con Fallback a Opus 4.8 Explicado

API de GLM-5.2: Precios, Contexto de 1M y Enrutamiento en Producción

Precios de GPT-5.4 Mini: Costos de entrada, caché y salida

API de MAI-Image-2.5: Lo que los desarrolladores deben saber

Precio de MiniMax M3: Costo de API de Contexto Largo para Desarrolladores