← Blog

Presentamos WaveSpeedAI LTX 2.3 Text-to-Video en WaveSpeedAI

LTX-2.3 es un modelo de fundación de audio-video basado en DiT diseñado para generar video y audio sincronizados dentro de un único modelo, con calidad de audio y visual mejorada

By WaveSpeedAI 9 min read
Wavespeed Ai Ltx.2.3 Text To Video LTX-2.3 es un modelo de fundación de audio-video basado en D...
Try it

LTX-2.3 Texto a Video: Genera Video y Audio Sincronizados desde un Solo Prompt

LTX-2.3 es un modelo fundacional de audio-video basado en DiT que genera video y audio completamente sincronizados a partir de un único prompt de texto, eliminando el flujo de trabajo tradicional en dos pasos de producir imágenes y sonido por separado. Ahora disponible en WaveSpeedAI, esta versión mejorada ofrece imágenes más nítidas, audio más rico y una adherencia notablemente mejor al prompt que su predecesor, lo que lo convierte en una opción convincente para creadores que buscan clips listos para producción sin necesidad de combinar múltiples herramientas de IA.

Para estudios, especialistas en marketing y creadores independientes, el mensaje es simple: escribe una escena y obtén un video que ya suena bien.

Cómo Funciona LTX-2.3 Texto a Video

LTX-2.3 está construido sobre una arquitectura Diffusion Transformer (DiT) entrenada conjuntamente con datos de video y audio. En lugar de generar metraje silencioso y agregar sonido después, el modelo produce ambas modalidades en un único paso hacia adelante, de modo que los eventos en pantalla y las señales de audio permanecen alineados: los pasos caen en el ritmo, la lluvia silba cuando aparecen las gotas, y la atmósfera sonora coincide con el contexto visual.

Especificaciones técnicas clave que importan a los desarrolladores:

  • Entrada: Prompt de texto que describe la escena, el movimiento y las señales de audio
  • Salida: Video MP4 con audio sincronizado integrado
  • Resoluciones: 480p, 720p (predeterminado), 1080p
  • Duración: De 5 a 20 segundos en una sola generación
  • Restricciones: Ancho y alto divisibles por 32; número de fotogramas divisible por 8 + 1
  • Control de semilla: Semilla fija opcional para iteración reproducible

En comparación con los modelos de texto a video que generan clips silenciosos (como Sora o las primeras líneas de difusión), LTX-2.3 colapsa dos pipelines —síntesis visual y generación de audio— en un único modelo fundacional. Eso significa menor latencia, menor costo y sin trabajo manual de sincronización en posproducción.

¿Listo para probarlo? Prueba LTX-2.3 Texto a Video en WaveSpeedAI y genera tu primer clip en menos de un minuto.

Características Principales de LTX-2.3 Texto a Video

  • Audio-video sincronizado en un solo paso — Sin paso separado de diseño de sonido. El modelo genera ambiente, efectos y audio atmosférico coincidentes como parte del mismo proceso de difusión.
  • Mayor adherencia al prompt respecto a LTX-2 — La actualización 2.3 mejora la alineación entre prompts detallados y escenas renderizadas, de modo que las descripciones complejas se traducen de forma más confiable a la pantalla.
  • Tres niveles de resolución (480p / 720p / 1080p) — Itera económicamente en 480p, luego escala a 1080p para la entrega final sin cambiar tu prompt ni tu flujo de trabajo.
  • Duración de clip variable de hasta 20 segundos — Suficientemente largo para anuncios, ganchos sociales y momentos narrativos breves; suficientemente corto para mantener las generaciones rápidas.
  • Modelo fundacional basado en DiT — La arquitectura Diffusion Transformer ofrece movimiento temporalmente consistente y texturas de alta fidelidad, especialmente en escenas dinámicas.
  • API REST lista para producción — Disponible en WaveSpeedAI sin arranques en frío, latencia predecible y precios por uso.
  • Salidas reproducibles con control de semilla — Fija la semilla para hacer pruebas A/B de variaciones de prompt sin que la varianza aleatoria interfiera.

Mejores Casos de Uso para LTX-2.3 Texto a Video

Contenido para Redes Sociales a Escala

Las plataformas de formato corto premian la velocidad y el audio. LTX-2.3 permite a los creadores publicar clips de 10 a 15 segundos para TikTok, Reels y Shorts con diseño de sonido integrado, sin necesidad de buscar música libre de regalías ni editar en Audacity. Escribe “calle de Tokio iluminada con neón, lluvia golpeando charcos, jazz distante, dolly lento hacia adelante” y el modelo devuelve una publicación utilizable.

Marketing y Anuncios de Rendimiento

Los especialistas en marketing de rendimiento necesitan probar docenas de variantes creativas por semana. Con LTX-2.3, una agencia puede generar un anuncio completo en 720p por $0.30 por spot de 10 segundos, cambiar el texto o las descripciones de escena, e iterar conceptos creativos más rápido que cualquier pipeline de producción tradicional. El audio sincronizado significa que cada variante está lista para redes publicitarias desde el principio.

Storyboarding y Previsualización

Los directores de cine y animadores pueden transformar escenas escritas en previz vivos con atmósfera coincidente. Describe una escena de un guion: “viento aullando sobre una cresta desértica, un jinete galopa frente a la cámara, graznido de un cuervo en lo alto”, y usa el clip resultante para alinear a directores de fotografía, editores y clientes antes de cualquier día de rodaje real.

Demostraciones de Productos y Explicadores

Los equipos de SaaS y hardware pueden prototipar explicadores de video sin reservar estudios. Describe el contexto del producto, el movimiento y el entorno ambiental, y usa LTX-2.3 para generar B-roll de fondo que ya suena pulido: perfecto para páginas de aterrizaje, flujos de incorporación y presentaciones.

Tráilers de Videojuegos y Conceptos Cinematográficos

Los estudios de videojuegos independientes pueden crear rápidamente cortes de tráiler y videos de conceptos atmosféricos. El audio sincronizado es particularmente valioso aquí: un clip de 10 segundos de una emboscada en el bosque con el susurro de hojas, choque de espadas y aleteo de pájaros transmite el tono de un juego mucho mejor que el metraje silencioso.

Visualizadores de Música y Ambiente

Los músicos y creadores de lo-fi pueden generar piezas de ambiente en bucle: “lluvia en una ventana, piano suave, zoom lento sobre una taza de café”, para visualizadores de streaming, fondos de transmisión en vivo y publicaciones sociales.

Contenido Educativo y Narrativo

Los educadores y narradores pueden dar vida al contenido escrito. Un autor de libros infantiles puede prototipar lecturas animadas; un canal de historia puede ilustrar momentos de ambientación sin necesidad de licenciar imágenes de archivo.

Precios y Acceso a la API de LTX-2.3

LTX-2.3 utiliza precios transparentes por uso, escalados por resolución y duración:

Resolución5s10s15s20s
480p$0.10$0.20$0.30$0.40
720p$0.15$0.30$0.45$0.60
1080p$0.20$0.40$0.60$0.80

Eso hace que un clip de 1080p de 20 segundos terminado con audio incluido cueste solo $0.80, una fracción del costo típico de licencias de imágenes de archivo o producción de video freelance.

Llamar a LTX-2.3 mediante la API de WaveSpeedAI

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video",
    {
        "prompt": "A golden retriever runs through a sunlit meadow, paws thumping the grass, birds chirping overhead, gentle wind",
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

Ventajas de WaveSpeedAI que importan a los desarrolladores:

  • Sin arranques en frío — la latencia de la primera llamada coincide con la latencia en estado estable
  • API REST — independiente del lenguaje, se integra en cualquier stack
  • Pago por uso — sin mínimos, sin cargos por GPU inactiva
  • Tiempo de actividad de nivel productivo — diseñado para cargas de trabajo de inferencia de alto rendimiento

Obtén una clave de API y empieza a construir con LTX-2.3.

Consejos para Obtener los Mejores Resultados con LTX-2.3 Texto a Video

  • Sé explícito sobre el audio — El modelo genera sonido automáticamente, pero indicar “lluvia”, “piano de jazz”, “multitud aplaudiendo” o “pasos sobre grava” te da un mayor control sobre la pista de audio.
  • Describe el movimiento, no solo el paisaje — Los movimientos de cámara (“dolly lento hacia adentro”, “toma de seguimiento a mano alzada”), el movimiento del sujeto y las señales de ritmo producen resultados más cinematográficos que las descripciones estáticas.
  • Itera en 480p, renderiza en 1080p — Usa el nivel más económico para ajustar tu prompt, luego aumenta la resolución una vez que la composición esté definida. Usa una semilla fija para que los cambios sean significativos.
  • Limita los prompts a un solo momento — Un clip de 10 segundos solo puede contener uno o dos momentos narrativos. Evita abarrotar scripts de múltiples escenas en un solo prompt.
  • Edita videos más largos en posproducción — Para contenido de más de 20 segundos, genera múltiples clips de LTX-2.3 y únelos en tu editor de video no lineal.
  • Usa el bloqueo de semilla para pruebas A/B — Al comparar dos variantes de prompt, establece la misma seed para aislar los cambios del prompt de la varianza aleatoria.

Para contenido animado a partir de obras de arte existentes, combina LTX-2.3 con LTX-2.3 Imagen a Video para mantener el estilo consistente a lo largo de una campaña.

Preguntas Frecuentes

¿Qué es LTX-2.3 Texto a Video?

LTX-2.3 es un modelo fundacional de audio-video basado en DiT que genera video y audio sincronizados a partir de un prompt de texto en un solo paso, disponible mediante API REST en WaveSpeedAI.

¿Cuánto cuesta LTX-2.3?

Los precios comienzan en $0.10 por un clip de 5 segundos en 480p y escalan hasta $0.80 por un clip de 20 segundos en 1080p, facturado por generación sin suscripción requerida.

¿Puedo usar LTX-2.3 mediante API?

Sí. LTX-2.3 está disponible a través de la API REST de WaveSpeedAI sin arranques en frío. Envía un prompt, resolución y duración, y recibe una URL de video con audio integrado.

¿LTX-2.3 genera audio automáticamente?

Sí: el audio se produce junto con el video en el mismo paso del modelo. Puedes dejar que el modelo infiera el audio del contexto visual o describir explícitamente los sonidos en tu prompt para un mayor control.

¿Qué tan largos pueden ser los videos de LTX-2.3?

Cada generación admite de 5 a 20 segundos. Para videos más largos, genera múltiples clips y edítalos juntos en posproducción.

Empieza a Generar Video y Audio con LTX-2.3 Hoy

LTX-2.3 colapsa la síntesis de video y la producción de audio en un único modelo rentable y de alta calidad, perfecto para especialistas en marketing, creadores y desarrolladores que necesitan clips terminados y rápidos sin manejar herramientas separadas.

Prueba LTX-2.3 Texto a Video en WaveSpeedAI →