Presentamos WaveSpeedAI LTX 2.3 de imagen a video en WaveSpeedAI

Da Vida a Tus Imágenes con LTX-2.3 Image-to-Video en WaveSpeedAI

Las imágenes estáticas cuentan una historia. Las imágenes en movimiento con sonido hacen que el público las sienta. Con LTX-2.3 Image-to-Video ahora disponible en WaveSpeedAI, puedes transformar cualquier imagen fija en un video de alta fidelidad — con audio sincronizado — en una sola generación. Sin postproducción. Sin herramientas de audio separadas. Solo sube, escribe el prompt y reproduce.

Desarrollado por Lightricks sobre la arquitectura Diffusion Transformer (DiT), LTX-2.3 representa un gran avance en la generación unificada de audio y video. Mientras que la mayoría de los modelos de imagen a video producen clips silenciosos que requieren diseño de sonido por separado, LTX-2.3 genera movimiento y audio juntos como una única salida coherente. El resultado es contenido animado que se siente completo desde el primer fotograma.

¿Qué Es LTX-2.3?

LTX-2.3 es la última iteración de la familia de modelos LTX-2 — un modelo base de 19 mil millones de parámetros dividido aproximadamente en 14 mil millones para procesamiento de video y 5 mil millones para audio. Es uno de los primeros modelos de código abierto capaz de generar audio y video sincronizados dentro de una única arquitectura unificada, utilizando mecanismos de atención cruzada para mantener el sonido y el movimiento perfectamente alineados.

La versión “2.3” introduce mejoras significativas sobre su predecesor: un VAE (Autoencoder Variacional) reconstruido y entrenado con datos de mayor calidad, un vocoder HiFi-GAN mejorado para una salida de audio más limpia, mayor consistencia en la conversión de imagen a video, y mejor adherencia al prompt a lo largo de todo el proceso de generación.

Características Principales

Generación Sincronizada de Audio y Video: El sonido no se añade como un complemento tardío. El ruido ambiental, la música, las señales de diálogo y los efectos de sonido se generan junto con el movimiento visual en una sola pasada, eliminando la necesidad de flujos de trabajo de audio separados.
Nuevo VAE para Detalles Más Nítidos: El espacio latente reconstruido en LTX-2.3 preserva texturas finas, rasgos faciales, cabello, texto y detalles de bordes en todo el fotograma. Los resultados son visiblemente más nítidos que en versiones anteriores.
Salida de Audio Más Limpia: Un vocoder HiFi-GAN mejorado reduce los artefactos de ruido y los silencios. El diálogo, el sonido ambiental y la música se reproducen con una claridad notablemente mayor.
Preservación Fiel de la Imagen: El modelo mantiene el sujeto, la composición, el encuadre y la iluminación de tu imagen de referencia mientras añade movimiento natural y coherente — sin deriva de identidad ni degradación visual.
Resolución y Duración Flexibles: Genera video en 480p, 720p o 1080p, con duraciones que van de 5 a 20 segundos, permitiéndote equilibrar calidad, costo y necesidades creativas.
Soporte para Retrato y Paisaje: El modo retrato nativo 9:16 facilita la producción de contenido optimizado para plataformas sociales como Instagram Reels, TikTok y YouTube Shorts.
Opciones de 24/48 FPS: Elige la frecuencia de fotogramas que se adapte a tus requisitos de salida, desde reproducción estándar hasta entrega más fluida de alta frecuencia de fotogramas.

Casos de Uso en el Mundo Real

Marketing de Productos

Convierte fotografías de productos en videos de exhibición dinámicos. Sube una foto destacada de una zapatilla, un frasco de skincare o un mueble, y LTX-2.3 lo anima con movimiento sutil — una vista rotativa, iluminación cambiante, atmósfera ambiental — mientras genera audio ambiental complementario. Lo que antes requería un videógrafo y un diseñador de sonido ahora puede esbozarse en segundos.

Contenido para Redes Sociales

La demanda de video de formato corto es implacable. LTX-2.3 permite a los creadores convertir sus imágenes más impactantes en publicaciones animadas con sonido incorporado que detienen el desplazamiento. Una fotografía de paisaje se convierte en un momento cinematográfico con viento y canto de pájaros. Una foto de comida se convierte en un clip chisporroteante y humeante listo para publicar.

Animación de Retratos y Personajes

Anima fotos de cabeza, retratos y arte de personajes con movimiento natural. El modelo sobresale en preservar la identidad facial mientras añade movimiento realista — giros sutiles de cabeza, parpadeos, cambios de expresión — lo que lo hace valioso para avatares digitales, proyectos creativos y contenido personalizado.

Storyboarding y Previsualización

Para cineastas y directores creativos, LTX-2.3 transforma fotogramas estáticos de storyboard y arte conceptual en secuencias animadas con audio sincronizado. Esto acelera la preproducción al dar a los interesados una sensación tangible del ritmo, el estado de ánimo y el diseño de sonido antes de que se grabe un solo fotograma.

E-Commerce y Publicidad

Los listados de productos estáticos pierden la atención. Los videos de productos animados con sonido ambiental aumentan el engagement y las tasas de conversión. LTX-2.3 hace práctico generar activos de video a escala — itera rápidamente en 480p y luego renderiza los activos finales en 1080p.

Primeros Pasos en WaveSpeedAI

Ejecutar LTX-2.3 Image-to-Video en WaveSpeedAI es sencillo. Sin arranques en frío y con inferencia rápida, obtienes resultados en segundos en lugar de minutos.

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "resolution": "720p",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/image-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

También puedes especificar resolución y duración:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A futuristic city at blue hour with soft volumetric light",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "resolution": "720p",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/image-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Consejo profesional: Comienza con 480p y duraciones cortas para ajustar tu prompt y la dirección del movimiento. Una vez que tengas el resultado deseado, escala a 1080p para la entrega final. Usa una semilla fija al comparar variaciones de prompt para poder aislar exactamente qué cambió.

Precios

LTX-2.3 en WaveSpeedAI comienza desde solo $0.10 para un clip de 5 segundos en 480p, escalando hasta $0.80 para un video de 20 segundos en 1080p. Sin suscripciones requeridas — paga solo por lo que generas.

Resolución	5s	10s	15s	20s
480p	$0.10	$0.20	$0.30	$0.40
720p	$0.15	$0.30	$0.45	$0.60
1080p	$0.20	$0.40	$0.60	$0.80

¿Por Qué WaveSpeedAI?

En un panorama donde la generación sincronizada de audio y video está convirtiéndose rápidamente en el estándar — con modelos como Veo 3.1, Kling 3.0 y Sora 2 empujando los límites — LTX-2.3 se destaca como una poderosa opción de código abierto con calidad de nivel productivo. Y ejecutarlo en WaveSpeedAI te proporciona la infraestructura adecuada: inferencia rápida sin arranques en frío, integración sencilla de API y precios que hacen asequible la experimentación.

Ya seas un creador independiente animando contenido para redes sociales o un equipo generando activos de video a escala, la combinación de la generación unificada de audio y video de LTX-2.3 y la infraestructura optimizada de WaveSpeedAI significa menos tiempo esperando y más tiempo creando.

Empieza a Crear

La brecha entre una imagen fija y un video completo con sonido nunca ha sido tan pequeña. Prueba LTX-2.3 Image-to-Video en WaveSpeedAI hoy y descubre cómo suenan tus imágenes en movimiento.

Da Vida a Tus Imágenes con LTX-2.3 Image-to-Video en WaveSpeedAI

¿Qué Es LTX-2.3?

Características Principales

Casos de Uso en el Mundo Real

Marketing de Productos

Contenido para Redes Sociales

Animación de Retratos y Personajes

Storyboarding y Previsualización

E-Commerce y Publicidad

Primeros Pasos en WaveSpeedAI

Precios

¿Por Qué WaveSpeedAI?

Empieza a Crear

Artículos relacionados

Presentamos ByteDance Seedance 2.0 Mini en WaveSpeedAI

Claude Fable 5 con Fallback a Opus 4.8 Explicado

API de GLM-5.2: Precios, Contexto de 1M y Enrutamiento en Producción

Precios de GPT-5.4 Mini: Costos de entrada, caché y salida

API de MAI-Image-2.5: Lo que los desarrolladores deben saber

Precio de MiniMax M3: Costo de API de Contexto Largo para Desarrolladores