Presentando WaveSpeedAI LTX 2 19b Control en WaveSpeedAI
Presentando LTX-2 19B ControlNet: Transformación Precisa de Video a Video con Guía de Pose, Profundidad y Borde
El panorama de la generación de video con IA ha alcanzado un nuevo hito. LTX-2 19B ControlNet aporta el poder de la guía estructural a la transformación de video, permitiendo a los creadores remodelar el contenido de video mientras preservan el movimiento y la dinámica que hacen que el metraje sea convincente. Construido sobre la arquitectura revolucionaria del Transformador de Difusión de 19 mil millones de parámetros de Lightricks, este modelo representa un salto significativo hacia adelante en la generación de video controlada.
¿Qué es LTX-2 19B ControlNet?
LTX-2 19B ControlNet es un modelo de transformación video a video que utiliza pose, profundidad o detección de borde canny para guiar la generación de nuevo contenido de video mientras mantiene la estructura de movimiento de su entrada. El modelo opera sobre la misma base poderosa que la familia LTX-2: un transformador de difusión de doble flujo asimétrico con 48 capas que procesa tokens de video y audio simultáneamente.
Lo que distingue a este modelo es su capacidad para generar contenido de audio-video sincronizado de hasta 20 segundos de duración. La arquitectura divide sus 19 mil millones de parámetros estratégicamente: aproximadamente 14 mil millones para el procesamiento de video y 5 mil millones para audio, permitiendo una salida multimodal coherente en una sola pasada.
La integración de ControlNet le permite elegir exactamente cómo el modelo interpreta su video de origen. Ya sea que desee preservar el movimiento humano a través de la detección de pose, mantener la estructura de la escena a través del mapeo de profundidad, o seguir bordes precisos a través de la detección canny, tiene control completo sobre el proceso de transformación.
Características Clave
Tres Modos de Guía para Cada Caso de Uso
-
Modo Pose: Extrae información esquelética y de pose de su video de entrada, ideal para la transferencia de movimiento humano y de caracteres. Este modo rastrea de manera confiable el posicionamiento del cuerpo en los fotogramas, lo que lo hace perfecto para secuencias de danza, movimientos atléticos o cualquier contenido donde el movimiento humano sea el enfoque.
-
Modo Profundidad: Crea mapas de profundidad desde su video de origen para preservar la estructura de la escena y las relaciones espaciales. Utilice esto cuando desee transformar entornos, cambiar estilos visuales o aplicar efectos creativos mientras mantiene la geometría fundamental de su metraje.
-
Modo Borde Canny: Detecta bordes en su material de origen para guiar la generación mientras preserva formas y contornos. Este modo destaca en aplicaciones de transferencia de estilo donde necesita mantener límites visuales precisos.
Manejo Flexible de Audio
El modelo ofrece tres modos de audio para que coincidan con sus necesidades creativas:
- Preservar: Mantener la pista de audio original de su video de entrada, esencial para escenarios de sincronización de labios
- Generar: Crear nuevo audio sincronizado que coincida con los visuales transformados
- Ninguno: Salida de video silencioso para proyectos donde agregará audio por separado
Integración de Imagen de Referencia
Cargue una imagen de referencia para definir la apariencia de su video transformado. El modelo aplicará las características visuales de su referencia mientras el video de entrada controla todo el movimiento. Esto permite transformaciones poderosas dirigidas por personajes donde puede animar cualquier imagen de personaje con movimiento del metraje de referencia.
Mejora Integrada de Mensajes
El mejora de mensajes integrada mejora automáticamente sus descripciones de texto para obtener mejores resultados. Combinado con el codificador de texto Gemma-3 del modelo, que entiende señales de lenguaje matizado, incluyendo emociones de personajes, movimientos de cámara y direcciones de iluminación, esta característica lo ayuda a lograr resultados profesionales sin ingeniería de mensajes extensiva.
Casos de Uso del Mundo Real
Animación de Caracteres y Transferencia de Movimiento
Transforme una imagen de personaje estático en un video completamente animado aplicando movimiento del metraje de referencia. Ya sea que esté trabajando con caracteres ilustrados, fotografías o avatares digitales, el modo de guía de pose captura el movimiento con precisión mientras la imagen de referencia define la salida visual.
Transferencia de Danza para Redes Sociales
Cree contenido atractivo transfiriendo movimientos de danza virales a cualquier sujeto. El modo de pose rastrea el posicionamiento del cuerpo fotograma por fotograma, permitiéndole transformar videos de danza en animaciones estilizadas, perfectas para contenido de TikTok, Instagram Reels y YouTube Shorts.
Transferencia de Estilo de Video
Aplique transformaciones visuales dramáticas al metraje existente mientras preserva el movimiento original. Utilice el modo de profundidad para mantener la estructura de la escena mientras cambia estilos visuales, o el modo de borde canny cuando la preservación precisa de formas sea más importante.
Consistencia de Caracteres en la Producción de Video
Para creadores que trabajan en contenido de serie o videos de marca, la característica de imagen de referencia asegura una apariencia de personaje consistente en múltiples clips. El movimiento puede provenir de diferentes videos de origen mientras la apariencia del personaje permanece uniforme.
Creación de Video con Sincronización de Labios
Preserve el audio original mientras transforma la apariencia visual de su sujeto. Este flujo de trabajo es particularmente valioso para crear contenido doblado, versiones animadas de metraje en vivo o modificaciones de video que preserven la privacidad.
Comenzando en WaveSpeedAI
Usar LTX-2 19B ControlNet en WaveSpeedAI es sencillo:
- Cargue su video de origen — Esto proporciona la estructura de movimiento para su salida
- Agregue una imagen de referencia (opcional) — Defina la apariencia que desea en su video transformado
- Escriba su mensaje — Describa lo que desea crear
- Seleccione su modo de control — Elija pose, profundidad o canny según sus necesidades
- Elija el manejo de audio — Preserve original, genere nuevo o ninguno
- Establezca su resolución — 480p para iteraciones rápidas, 720p para calidad equilibrada, 1080p para renderizado final
- Genere — Envíe y descargue su video transformado
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/control",
{
"video": "https://example.com/source-video.mp4",
"image": "https://example.com/reference.jpg",
"prompt": "A person dancing in a futuristic neon city",
"mode": "pose",
"audio_mode": "generate",
"resolution": "720p"
},
)
print(output["outputs"][0])
Precios
El modelo sigue un modelo de precios transparente por segundo según la resolución:
| Resolución | 5s | 10s | 15s | 20s |
|---|---|---|---|---|
| 480p | $0.15 | $0.30 | $0.45 | $0.60 |
| 720p | $0.20 | $0.40 | $0.60 | $0.80 |
| 1080p | $0.30 | $0.60 | $0.90 | $1.20 |
Consejos Profesionales para Mejores Resultados
- Alinee posturas iniciales: Alinee la postura del sujeto en su imagen de referencia con la postura inicial en su video de origen para obtener resultados perfectos
- Elija el modo correcto: Utilice pose para movimiento humano/de caracteres, profundidad para estructura de escena, canny para precisión basada en bordes
- Itere eficientemente: Comience a 480p para refinar su enfoque, luego renderice la salida final a 720p o 1080p
- Estrategia de audio: Preserve audio para proyectos de sincronización de labios, genere para contenido fresco, o use ninguno cuando agregue audio en post-producción
¿Por Qué WaveSpeedAI?
WaveSpeedAI ofrece el entorno ideal para ejecutar LTX-2 19B ControlNet:
- Sin inicios en frío: Sus trabajos comienzan a procesarse de inmediato sin retrasos de infraestructura
- Inferencia optimizada: El despliegue optimizado para NVIDIA asegura que obtenga los tiempos de generación más rápidos posibles
- Precios transparentes: Pague solo por lo que genera con facturación clara por segundo
- API lista para producción: Integre directamente en sus aplicaciones y flujos de trabajo
Comience a Crear Hoy
LTX-2 19B ControlNet abre nuevas posibilidades para creadores de video, animadores y desarrolladores que necesitan control preciso sobre transformaciones de video. La combinación de modos de guía ControlNet, manejo flexible de audio y la poderosa arquitectura DiT de 19B ofrece resultados de calidad profesional a precios accesibles.
¿Listo para transformar sus videos con guía estructural precisa? Pruebe LTX-2 19B ControlNet en WaveSpeedAI y descubra qué es posible cuando tiene control total sobre la generación de video con IA.





