← Blog

Presentamos WaveSpeedAI LTX 2.3 Image-to-Video LoRA en WaveSpeedAI

LTX-2.3 con soporte LoRA es un modelo base de audio-video basado en DiT diseñado para generar video y audio sincronizados con estilos personalizados, movimiento o apariencia

6 min read
Wavespeed Ai Ltx.2.3 Image To Video Lora
Wavespeed Ai Ltx.2.3 Image To Video Lora LTX-2.3 con soporte LoRA es un modelo base de audio-video ba...
Try it
Presentamos WaveSpeedAI LTX 2.3 Image-to-Video LoRA en WaveSpeedAI

Da Vida a Tus Imágenes con Estilos Personalizados: LTX-2.3 Image-to-Video LoRA Ya Está Aquí

Las imágenes estáticas son poderosas, pero el movimiento cuenta una historia. Con la llegada de LTX-2.3 Image-to-Video LoRA en WaveSpeedAI, ahora puedes transformar cualquier imagen fija en un video de alta fidelidad con audio sincronizado — y personalizar el resultado con tus propios estilos entrenados, personajes y patrones de movimiento mediante adaptadores LoRA.

Construido sobre la última arquitectura Diffusion Transformer (DiT) de Lightricks con 19 mil millones de parámetros, LTX-2.3 representa un salto generacional en la generación de video de código abierto. Y con soporte LoRA en WaveSpeedAI, ya no estás limitado a los valores predeterminados del modelo base — puedes inyectar la estética de tu marca, un look cinematográfico específico, o la apariencia de un personaje directamente en el pipeline de generación.

¿Qué Es LTX-2.3 Image-to-Video LoRA?

LTX-2.3 es el último modelo fundacional de audio-video de Lightricks, y esta variante combina dos capacidades que raramente se encuentran juntas: generación de video condicionada por imagen y soporte de ajuste fino con LoRA.

Esto es lo que significa en la práctica. Proporcionas una imagen de referencia — una foto de producto, un retrato, una pieza de arte conceptual — y el modelo la anima en un video con movimiento natural y audio sincronizado, todo en un solo proceso. La capa LoRA te permite aplicar hasta tres adaptadores personalizados simultáneamente, orientando el resultado hacia estilos visuales específicos, dinámicas de movimiento, o apariencias de personajes que hayas entrenado con tus propios datos.

El resultado es un pipeline de generación de video que es tanto potente desde el primer momento como profundamente personalizable para flujos de trabajo profesionales.

Novedades en LTX-2.3

LTX-2.3 no es una actualización incremental. Lightricks reconstruyó tres componentes centrales del modelo:

  • VAE Rediseñado: Un nuevo codificador automático variacional entrenado con datos de mayor calidad produce detalles finos más nítidos, texturas más realistas y bordes más limpios. El cabello, el texto y los objetos pequeños mantienen claridad en todo el fotograma — una mejora significativa visible especialmente en resoluciones más altas.

  • Conector de Texto 4x Mayor: Un nuevo mecanismo de atención con compuerta significa que los prompts se siguen con mayor fidelidad. Las descripciones de temporización, movimiento, expresión y señales de audio se traducen con mayor precisión en el resultado generado.

  • Vocoder HiFi-GAN Mejorado: La calidad de audio da un gran paso adelante con sonido más limpio, artefactos de ruido reducidos y mejor manejo de diálogos, música y audio ambiente. Los silencios y artefactos que afectaban a versiones anteriores han sido eliminados.

  • Mejor Movimiento Image-to-Video: El modelo produce movimientos más naturales y realistas a partir de fotogramas de entrada — menos el efecto estático de paneo “Ken Burns” y más animación genuina que respeta la composición, iluminación y sujeto de tu imagen de referencia.

  • Soporte Nativo para Retratos: Genera video vertical 9:16 de forma nativa sin recortar desde formato horizontal, perfecto para redes sociales y contenido orientado a móviles.

Características Principales

  • Generación Sincronizada de Audio-Video: El audio se genera junto al video en un único proceso del modelo — no se necesita un pipeline de audio separado. El sonido está contextualmente emparejado con el movimiento visual y las señales del prompt.
  • Personalización con LoRA: Aplica hasta 3 adaptadores LoRA simultáneamente para controlar estilo, movimiento y apariencia. Cada adaptador incluye un parámetro de escala para una mezcla de precisión.
  • Resolución Flexible: Elige entre 480p para iteración rápida, 720p para calidad equilibrada, o 1080p para entrega final.
  • Duración Variable: Genera clips de 5 a 20 segundos en un único proceso.
  • Preservación de Composición: El modelo mantiene el sujeto, encuadre e iluminación de tu imagen de entrada mientras añade movimiento natural y coherente.

Casos de Uso en el Mundo Real

Marketing de Productos

Transforma la fotografía de productos en anuncios de video llamativos. Sube una foto principal, describe movimiento sutil y audio ambiente, y aplica un LoRA de estilo de marca para mantener consistencia visual en toda tu campaña.

Animación de Personajes

Entrena un LoRA en un personaje o mascota específico, luego anima cualquier pose o escena con ese personaje manteniendo su apariencia consistente. Ideal para estudios de animación, desarrolladores de videojuegos y creadores de contenido que construyen IP reconocibles.

Contenido para Redes Sociales

Convierte publicaciones estáticas en contenido de video que detiene el scroll. El soporte de modo retrato nativo significa que puedes generar video vertical listo para TikTok e Instagram Reels directamente, sin procesamiento posterior.

Narrativa Cinematográfica

Anima fotogramas de storyboard o arte conceptual con un LoRA de estilo cinematográfico específico — cine negro, anime, documental — y obtén video coherente con atmósfera de audio a juego.

Contenido de Marca Consistente a Escala

Fija tu generación de video a pautas estéticas específicas usando LoRAs de estilo. Cada pieza de contenido lleva la firma visual de tu marca, ya sea que estés generando un clip o cien.

Primeros Pasos en WaveSpeedAI

Comenzar requiere solo unas pocas líneas de código:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video-lora",
    {
        "image": "https://example.com/your-image.jpg",
        "prompt": "The woman turns her head slowly and smiles, soft ambient music plays",
        "loras": [
            {"path": "https://example.com/your-style-lora.safetensors", "scale": 0.8}
        ],
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

Precios que Escalan Contigo

Resolución5s10s15s20s
480p$0.15$0.30$0.45$0.60
720p$0.20$0.40$0.60$0.80
1080p$0.25$0.50$0.75$1.00

Comienza con 480p para iterar rápidamente en tus prompts y combinaciones de LoRA, luego escala a 1080p cuando estés listo para el resultado final.

Consejos Profesionales para Mejores Resultados

  • Describe el audio explícitamente cuando quieras sonidos específicos: “lluvia en una ventana,” “jazz animado,” o “aplausos del público.”
  • Mantén los prompts de movimiento enfocados — una acción clara por prompt produce los resultados más coherentes.
  • Usa imágenes de entrada de alta calidad que sean nítidas y bien expuestas para la mejor fidelidad de animación.
  • Itera rápido a 480p, luego renderiza tu versión final a 720p o 1080p.
  • Usa una semilla fija al comparar variaciones de LoRA para aislar los cambios de estilo de la variación aleatoria.

La Conclusión

LTX-2.3 Image-to-Video LoRA en WaveSpeedAI te ofrece generación de video de nivel profesional con la profundidad de personalización que exigen los flujos de trabajo profesionales. La combinación de calidad visual mejorada, audio sincronizado y soporte de adaptadores LoRA significa que no solo estás generando video genérico — estás generando tu video, en tu estilo, a tu escala.

Sin arranques en frío, inferencia rápida y precios transparentes por segundo, no hay barreras para comenzar.

Prueba LTX-2.3 Image-to-Video LoRA en WaveSpeedAI hoy y descubre en qué pueden convertirse tus imágenes.