Presentamos WaveSpeedAI LTX 2.3 Text-to-Video LoRA en WaveSpeedAI

Presentamos LTX-2.3 Text-to-Video con soporte LoRA en WaveSpeedAI

La línea entre la imaginación y el video nunca ha sido tan delgada. Hoy, nos complace anunciar la disponibilidad de LTX-2.3 Text-to-Video con soporte LoRA en WaveSpeedAI — un modelo que no solo genera video a partir de texto, sino que te permite moldearlo según tu visión con estilos personalizados, personajes y movimiento a través de adaptadores LoRA ligeros.

Ya sea que estés construyendo una identidad de marca, animando un personaje recurrente o creando contenido con una estética cinematográfica distintiva, LTX-2.3 con LoRA te ofrece el control que los modelos genéricos de generación de video simplemente no pueden igualar.

¿Qué es LTX-2.3 Text-to-Video LoRA?

LTX-2.3 es la última evolución de la familia de modelos LTX de Lightricks — un modelo de base basado en Diffusion Transformer (DiT) que genera video y audio sincronizados a partir de un único prompt de texto en un solo paso. Sin pipeline de producción de audio separado. Sin soluciones de postprocesamiento. Describes una escena y obtienes tanto los visuales como el sonido.

Lo que hace que este lanzamiento sea especialmente poderoso es la incorporación del soporte LoRA (Low-Rank Adaptation). Los adaptadores LoRA son módulos ligeros y entrenables que se superponen al modelo base y dirigen su salida hacia estilos, personajes o patrones de movimiento específicos. Puedes apilar hasta tres adaptadores LoRA simultáneamente, combinando estéticas personalizadas con todo el poder generativo de LTX-2.3.

El resultado: un modelo que es tanto de uso general como profundamente personalizable.

Características principales

Calidad visual y de audio mejorada

LTX-2.3 incluye un VAE (Variational Autoencoder) completamente rediseñado y entrenado con datos de mayor calidad. Las texturas finas, el cabello, las superposiciones de texto y los detalles de bordes son más nítidos y realistas que en versiones anteriores. En el aspecto de audio, los datos de entrenamiento han sido filtrados para eliminar silencios, ruido y artefactos, y un nuevo vocoder ofrece un sonido más limpio y fiable con una alineación más precisa al contenido visual.

Mayor fidelidad al prompt

Un nuevo conector de texto con atención con puertas significa que tus prompts se siguen con mayor fidelidad. Las descripciones de timing, movimiento, expresión y señales de audio se traducen directamente en la salida generada — reduciendo la brecha entre lo que escribes y lo que ves.

Personalización con LoRA

Aplica hasta tres adaptadores LoRA por generación, cada uno con escala ajustable. Esto te permite:

Fijar un estilo visual — estéticas cinematográficas, estilos anime, paletas de colores de marca
Mantener la consistencia de personajes — rostros, figuras o mascotas recurrentes en distintos clips
Entrenar patrones de movimiento personalizados — movimientos característicos, técnicas de cámara, coreografía
Combinar adaptadores — superponer un LoRA de personaje con un LoRA de estilo y un LoRA de movimiento en una sola generación

Opciones de salida flexibles

Resoluciones: 480p para iteración rápida, 720p para calidad equilibrada, 1080p para entrega final
Duración: Genera clips de 5 a 20 segundos
Audio sincronizado: El sonido se genera junto al video en un único paso del modelo, con la posibilidad de guiar el audio mediante señales en el prompt como “lluvia en una ventana”, “jazz animado” o “multitud aplaudiendo”

Precios transparentes y predecibles

Cada generación tiene un costo claro basado en resolución y duración:

Resolución	5s	10s	15s	20s
480p	$0.15	$0.30	$0.45	$0.60
720p	$0.20	$0.40	$0.60	$0.80
1080p	$0.25	$0.50	$0.75	$1.00

Sin sorpresas. Sin cargos de cómputo ocultos.

Casos de uso reales

Contenido de marca a escala

Los equipos de marketing pueden entrenar un LoRA sobre la identidad visual de su marca — tratamientos de logo, paletas de colores, estilo de motion graphics — y luego generar contenido de video acorde a la marca a partir de descripciones de texto. ¿Necesitas 20 variaciones de una presentación de producto? Escribe los prompts, aplica el LoRA de marca y genera.

Narrativa centrada en personajes

Los creadores que construyen series o campañas en torno a un personaje específico pueden entrenar un LoRA de semejanza a partir de clips de referencia. Cada nuevo video mantiene la misma apariencia del personaje, lo que hace que el contenido episódico y las series en redes sociales sean visualmente consistentes sin edición manual.

Creación de contenido para redes sociales

El rango de duración de 5 a 20 segundos se adapta perfectamente al contenido de formato corto para TikTok, Instagram Reels y YouTube Shorts. Genera clips impactantes con audio sincronizado directamente desde un brief creativo, luego itera en 480p antes de renderizar la versión final en 1080p.

Prototipado rápido y visualización de conceptos

Las agencias y estudios pueden usar la generación de texto a video para visualizar rápidamente conceptos para presentaciones a clientes. Describe la escena, aplica un LoRA de estilo cinematográfico y produce una vista previa pulida en minutos en lugar de días.

Motion design y exploración de VFX

Entrena LoRAs en movimientos de cámara específicos — tomas de seguimiento, zooms dolly, paneo suaves — y aplícalos a cualquier escena. Esto le da a los diseñadores de movimiento un punto de partida que ya coincide con su lenguaje cinematográfico previsto.

Primeros pasos en WaveSpeedAI

Generar tu primer video requiere solo unas pocas líneas de código:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/text-to-video-lora", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Ejecutar en WaveSpeedAI significa sin arranques en frío — tu solicitud llega a una GPU activa y comienza a generar de inmediato. Combinado con precios asequibles por generación y una API REST sencilla, puedes integrar la generación de video en flujos de trabajo de producción sin sobrecarga de infraestructura.

Consejos para obtener los mejores resultados

Itera a bajo costo: Comienza en 480p para refinar tu prompt y combinación de LoRA, luego renderiza la versión final en 1080p
Sé específico con el audio: Incluye señales de audio en tu prompt — “música suave de piano”, “olas rompiendo”, “pasos sobre grava” — para paisajes sonoros más intencionales
Usa semillas fijas: Al comparar variaciones de prompts o escalas de LoRA, fija la semilla para aislar qué es lo que realmente está cambiando
Apila LoRAs estratégicamente: Combina un adaptador de estilo con un adaptador de movimiento para obtener resultados que ninguno podría lograr por sí solo, ajustando la escala de cada uno para encontrar el equilibrio adecuado

El panorama general

La generación de video con IA ha cruzado un umbral en 2026. Lo que antes era una novedad que producía clips borrosos de pocos segundos ha madurado hasta convertirse en una herramienta lista para producción capaz de generar resultados de calidad cinematográfica con movimiento coherente y audio sincronizado. LTX-2.3 con soporte LoRA representa el siguiente paso en esa evolución: no solo mejor calidad base, sino la capacidad de hacer que el modelo sea tuyo.

Los LoRAs personalizados convierten un modelo de video de uso general en una herramienta creativa especializada que entiende tu marca, tus personajes y tu estética. Esa es la diferencia entre generar contenido genérico y generar tu contenido.

Empieza a crear hoy

LTX-2.3 Text-to-Video con soporte LoRA está disponible ahora en WaveSpeedAI. Dirígete a la página del modelo para explorar la API, ejecutar tu primera generación y ver qué es posible cuando combinas generación de video de última generación con la precisión de los adaptadores LoRA personalizados.

Tu texto. Tu estilo. Tu video.