Presentamos WaveSpeedAI LTX 2.3 de imagen a video en WaveSpeedAI
LTX-2.3 es un modelo de fundación de audio y video basado en DiT, diseñado para generar video y audio sincronizados dentro de un único modelo, con mayor calidad de audio y visual
Da Vida a Tus Imágenes con LTX-2.3 Image-to-Video en WaveSpeedAI
Las imágenes estáticas cuentan una historia. Las imágenes en movimiento con sonido hacen que el público las sienta. Con LTX-2.3 Image-to-Video ahora disponible en WaveSpeedAI, puedes transformar cualquier imagen fija en un video de alta fidelidad — con audio sincronizado — en una sola generación. Sin postproducción. Sin herramientas de audio separadas. Solo sube, escribe el prompt y reproduce.
Desarrollado por Lightricks sobre la arquitectura Diffusion Transformer (DiT), LTX-2.3 representa un gran avance en la generación unificada de audio y video. Mientras que la mayoría de los modelos de imagen a video producen clips silenciosos que requieren diseño de sonido por separado, LTX-2.3 genera movimiento y audio juntos como una única salida coherente. El resultado es contenido animado que se siente completo desde el primer fotograma.
¿Qué Es LTX-2.3?
LTX-2.3 es la última iteración de la familia de modelos LTX-2 — un modelo base de 19 mil millones de parámetros dividido aproximadamente en 14 mil millones para procesamiento de video y 5 mil millones para audio. Es uno de los primeros modelos de código abierto capaz de generar audio y video sincronizados dentro de una única arquitectura unificada, utilizando mecanismos de atención cruzada para mantener el sonido y el movimiento perfectamente alineados.
La versión “2.3” introduce mejoras significativas sobre su predecesor: un VAE (Autoencoder Variacional) reconstruido y entrenado con datos de mayor calidad, un vocoder HiFi-GAN mejorado para una salida de audio más limpia, mayor consistencia en la conversión de imagen a video, y mejor adherencia al prompt a lo largo de todo el proceso de generación.
Características Principales
-
Generación Sincronizada de Audio y Video: El sonido no se añade como un complemento tardío. El ruido ambiental, la música, las señales de diálogo y los efectos de sonido se generan junto con el movimiento visual en una sola pasada, eliminando la necesidad de flujos de trabajo de audio separados.
-
Nuevo VAE para Detalles Más Nítidos: El espacio latente reconstruido en LTX-2.3 preserva texturas finas, rasgos faciales, cabello, texto y detalles de bordes en todo el fotograma. Los resultados son visiblemente más nítidos que en versiones anteriores.
-
Salida de Audio Más Limpia: Un vocoder HiFi-GAN mejorado reduce los artefactos de ruido y los silencios. El diálogo, el sonido ambiental y la música se reproducen con una claridad notablemente mayor.
-
Preservación Fiel de la Imagen: El modelo mantiene el sujeto, la composición, el encuadre y la iluminación de tu imagen de referencia mientras añade movimiento natural y coherente — sin deriva de identidad ni degradación visual.
-
Resolución y Duración Flexibles: Genera video en 480p, 720p o 1080p, con duraciones que van de 5 a 20 segundos, permitiéndote equilibrar calidad, costo y necesidades creativas.
-
Soporte para Retrato y Paisaje: El modo retrato nativo 9:16 facilita la producción de contenido optimizado para plataformas sociales como Instagram Reels, TikTok y YouTube Shorts.
-
Opciones de 24/48 FPS: Elige la frecuencia de fotogramas que se adapte a tus requisitos de salida, desde reproducción estándar hasta entrega más fluida de alta frecuencia de fotogramas.
Casos de Uso en el Mundo Real
Marketing de Productos
Convierte fotografías de productos en videos de exhibición dinámicos. Sube una foto destacada de una zapatilla, un frasco de skincare o un mueble, y LTX-2.3 lo anima con movimiento sutil — una vista rotativa, iluminación cambiante, atmósfera ambiental — mientras genera audio ambiental complementario. Lo que antes requería un videógrafo y un diseñador de sonido ahora puede esbozarse en segundos.
Contenido para Redes Sociales
La demanda de video de formato corto es implacable. LTX-2.3 permite a los creadores convertir sus imágenes más impactantes en publicaciones animadas con sonido incorporado que detienen el desplazamiento. Una fotografía de paisaje se convierte en un momento cinematográfico con viento y canto de pájaros. Una foto de comida se convierte en un clip chisporroteante y humeante listo para publicar.
Animación de Retratos y Personajes
Anima fotos de cabeza, retratos y arte de personajes con movimiento natural. El modelo sobresale en preservar la identidad facial mientras añade movimiento realista — giros sutiles de cabeza, parpadeos, cambios de expresión — lo que lo hace valioso para avatares digitales, proyectos creativos y contenido personalizado.
Storyboarding y Previsualización
Para cineastas y directores creativos, LTX-2.3 transforma fotogramas estáticos de storyboard y arte conceptual en secuencias animadas con audio sincronizado. Esto acelera la preproducción al dar a los interesados una sensación tangible del ritmo, el estado de ánimo y el diseño de sonido antes de que se grabe un solo fotograma.
E-Commerce y Publicidad
Los listados de productos estáticos pierden la atención. Los videos de productos animados con sonido ambiental aumentan el engagement y las tasas de conversión. LTX-2.3 hace práctico generar activos de video a escala — itera rápidamente en 480p y luego renderiza los activos finales en 1080p.
Primeros Pasos en WaveSpeedAI
Ejecutar LTX-2.3 Image-to-Video en WaveSpeedAI es sencillo. Sin arranques en frío y con inferencia rápida, obtienes resultados en segundos en lugar de minutos.
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/photo.jpg",
"prompt": "The camera slowly pushes in as the subject turns their head, soft ambient music playing"
},
)
print(output["outputs"][0]) # URL del video de salida
También puedes especificar resolución y duración:
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/product.jpg",
"prompt": "Gentle rotation revealing product details, soft studio lighting, subtle ambient hum",
"resolution": "1080p",
"duration": 10
},
)
Consejo profesional: Comienza con 480p y duraciones cortas para ajustar tu prompt y la dirección del movimiento. Una vez que tengas el resultado deseado, escala a 1080p para la entrega final. Usa una semilla fija al comparar variaciones de prompt para poder aislar exactamente qué cambió.
Precios
LTX-2.3 en WaveSpeedAI comienza desde solo $0.10 para un clip de 5 segundos en 480p, escalando hasta $0.80 para un video de 20 segundos en 1080p. Sin suscripciones requeridas — paga solo por lo que generas.
| Resolución | 5s | 10s | 15s | 20s |
|---|---|---|---|---|
| 480p | $0.10 | $0.20 | $0.30 | $0.40 |
| 720p | $0.15 | $0.30 | $0.45 | $0.60 |
| 1080p | $0.20 | $0.40 | $0.60 | $0.80 |
¿Por Qué WaveSpeedAI?
En un panorama donde la generación sincronizada de audio y video está convirtiéndose rápidamente en el estándar — con modelos como Veo 3.1, Kling 3.0 y Sora 2 empujando los límites — LTX-2.3 se destaca como una poderosa opción de código abierto con calidad de nivel productivo. Y ejecutarlo en WaveSpeedAI te proporciona la infraestructura adecuada: inferencia rápida sin arranques en frío, integración sencilla de API y precios que hacen asequible la experimentación.
Ya seas un creador independiente animando contenido para redes sociales o un equipo generando activos de video a escala, la combinación de la generación unificada de audio y video de LTX-2.3 y la infraestructura optimizada de WaveSpeedAI significa menos tiempo esperando y más tiempo creando.
Empieza a Crear
La brecha entre una imagen fija y un video completo con sonido nunca ha sido tan pequeña. Prueba LTX-2.3 Image-to-Video en WaveSpeedAI hoy y descubre cómo suenan tus imágenes en movimiento.





