Guía de edición de video basada en instrucciones con WAN 2.7

Hola a todos. Soy Dora. Llevo un tiempo trabajando con herramientas de video con IA y, cuando escuché por primera vez sobre la función de edición basada en instrucciones de WAN 2.7, no me convencí de inmediato de que fuera a cambiar mucho. Editar video con comandos de texto sonaba como una de esas funciones que lucen bien en una demo pero que se desmoronan cuando realmente las necesitas.

Debo admitir que me equivoqué en parte.

Qué significa la edición de video basada en instrucciones en WAN 2.7

Tomas un clip de video existente, escribes lo que quieres cambiar y el modelo ajusta ese elemento específico manteniendo todo lo demás intacto. No es una regeneración. Es una edición.

Cómo se diferencia de la generación estándar de texto a video

La generación de texto a video empieza desde cero. Escribes un prompt y obtienes lo que salga.

La edición por instrucciones empieza desde algo que ya existe. El clip está ahí. El timing está establecido. Le pides al modelo que cambie una parte —intercambia el fondo, ajusta la iluminación, cambia el color de un atuendo— sin tocar el resto.

El análisis de WaveSpeedAI señala que esto importa operacionalmente: los ciclos de iteración que antes requerían regenerar clips desde cero ahora pueden manejarse como ediciones ligeras. Regenerar porque el color de la chaqueta era incorrecto se sentía como un desperdicio. Editar solo la chaqueta se sentía correcto.

Cómo se diferencia de la recreación de video

La recreación toma la estructura de movimiento de un video de referencia y la aplica a nuevos sujetos o estilos. Es transferencia de movimiento.

La edición por instrucciones modifica. El clip original permanece; solo cambia el elemento que especificas.

Qué recibe el modelo como entrada

Dos cosas: el video fuente (hasta 15 segundos en 1080P) y una instrucción en lenguaje natural.

Lo que me sorprendió: sin enmascaramiento, sin aislamiento de capas. Solo el clip y la oración.

Qué puedes y no puedes editar con instrucciones

Categorías de edición admitidas

Según las pruebas y la documentación de la plataforma de Dzine, la edición por instrucciones maneja:

Cambios de fondo (interior a exterior, soleado a lluvioso)
Cambios de iluminación (hora dorada a hora azul)
Ajustes a nivel de objeto (cambiar el color de una camisa, agregar accesorios)
Modificaciones de estilo (realista a ilustrado)

Estos funcionan porque son cambios acotados. El modelo sabe qué es un fondo, qué hace la iluminación.

Qué resiste la edición basada en instrucciones

Los reordenamientos espaciales complejos no funcionan bien. “Mueve al personaje hacia la izquierda” no produjo resultados limpios. El personaje se quedaba en su lugar o la composición se desplazaba de forma extraña.

Las escenas con mucha identidad —expresiones faciales específicas, detalles finos de logotipos— resisten la edición. El modelo puede cambiar la iluminación, pero tiene dificultades para mantener rasgos exactos al alterar la expresión o la edad.

Los cambios de física son variables. “Haz que el agua fluya más rápido” a veces funcionó, a veces se veía con errores.

Granularidad de la edición

Todas las ediciones son a nivel de prompt. Describes qué cambia; el modelo infiere a qué parte aplica. Aún no hay selección a nivel de objeto.

Aprendí a escribir instrucciones muy específicas. “Cambia la chaqueta a rojo” funcionó mejor que “hazle tonos más cálidos al atuendo”.

Cómo diseñar instrucciones de edición efectivas

Qué hace una buena instrucción de edición

Las buenas instrucciones son específicas, direccionales y acotadas. Este enfoque refleja la filosofía detrás de herramientas como Descript, donde puedes editar video simplemente editando texto sin ningún enmascaramiento ni aislamiento de capas.

“Cambia el cielo a nublado con nubes oscuras” funcionó consistentemente. Especifica qué cambia, en qué se convierte y agrega detalle.

“Hazlo ver más dramático” no funcionó. Demasiado vago. El modelo lo interpretó de manera diferente cada vez.

Qué hace una mala instrucción

Las instrucciones que contradicen el clip fuente fallan silenciosamente. “Elimina a la persona de la escena” en una toma centrada en un personaje se ignoraba o producía fotogramas rotos.

Las instrucciones con múltiples elementos conflictivos tienen dificultades. “Cambia la chaqueta a azul, el fondo a un bosque y agrega lluvia” intentó tres ediciones a la vez. Una edición por instrucción funcionó mejor. Este patrón de prompting claro —declarar qué cambia y describir el estado objetivo— se alinea con las mejores prácticas vistas en la edición de video basada en texto de Visla, donde refinas el metraje editando directamente la transcripción.

Patrón de prompting

El patrón que funcionó:

Declara qué cambia
Describe el estado objetivo
Mantenlo en menos de 15 palabras

“Intercambia el fondo urbano por un paisaje montañoso” — sujeto claro, objetivo claro, resultados limpios.

Requisitos de entrada

Especificación del video fuente

Videos fuente: de 2 a 15 segundos, hasta 1080P. Probé clips de 5 segundos a 1080P y clips de 10 segundos a 720P. Ambos funcionaron.

Alineación de referencia

Si tu fuente tiene mucho desenfoque de movimiento, cortes rápidos o exposición extrema, los resultados de edición se degradan. El modelo necesita fotogramas claros.

Las tomas con paneo rápido produjeron cambios de fondo borrosos. Las tomas estáticas o de movimiento lento produjeron ediciones limpias.

Dónde encaja la edición por instrucciones en un pipeline de producción

No esperaba usar esto como herramienta principal. Esperaba que fuera una novedad. No lo es.

Ciclo de pulido post-generación

Después de generar un clip con texto a video estándar, a menudo obtenía el 80% de lo que quería. El movimiento era correcto, el encuadre era correcto, pero la gradación de color se sentía mal o el fondo no coincidía con el brief.

Antes de la edición por instrucciones, eso significaba regenerar con prompts ajustados y esperar. Tasa de éxito: quizás 40%. Cada regeneración tomaba 60-90 segundos, y a menudo quemaba tres o cuatro intentos antes de conseguir algo utilizable.

Ahora genero una vez y luego edito el elemento específico que está mal. La tasa de éxito se acerca al 70%, y la iteración es más rápida. En lugar de tres regeneraciones completas de 90 segundos cada una (4,5 minutos en total), hago una generación más una edición (aproximadamente 2,5 minutos en total). El ahorro de tiempo se acumula en múltiples proyectos.

Iteración de estilo sin regeneración completa

Lo probé generando un clip base de un personaje caminando por una calle de la ciudad, y luego creando tres variantes de estilo con ediciones por instrucciones:

“Cambia al estilo neón cyberpunk”
“Cambia al estilo de pintura en acuarela”
“Hazlo blanco y negro estilo cine noir”

Las tres ediciones preservaron el movimiento y la composición originales. Solo cambió el estilo visual. El ciclo de caminata del personaje permaneció idéntico. El movimiento de la cámara no se alteró.

Eso es útil para presentaciones a clientes donde quieres mostrar opciones de concepto sin regenerar toda la escena tres veces. También es útil para pruebas A/B de creatividades publicitarias sin quemar créditos de generación.

Intenté el mismo flujo de trabajo con regeneración en lugar de edición —escribiendo tres prompts diferentes con palabras clave de estilo incluidas—. Dos de los tres regresaron con un timing de movimiento ligeramente diferente, lo que arruinó la comparación. La edición mantuvo todo comparable excepto la variable de estilo que estaba probando.

Comparación de costos: editar vs regenerar

Según el análisis de costos de WaveSpeedAI, la edición basada en instrucciones probablemente tendrá un perfil de costos diferente al de la generación estándar, pero los precios exactos aún no se han publicado.

Desde una perspectiva de flujo de trabajo, incluso si la edición cuesta lo mismo por segundo que la generación, sigue siendo más barata en la práctica porque no estás descartando intentos fallidos. Una generación más una edición dirigida supera a tres regeneraciones completas.

El cálculo: si la generación cuesta $0.12/segundo para 1080P (precio de WAN 2.6 de PiAPI), un clip de 5 segundos cuesta $0.60. Tres regeneraciones cuestan $1.80. Una generación más una edición —incluso si la edición cuesta los mismos $0.60— solo cuesta $1.20. Eso es un ahorro del 33% solo por reducir el desperdicio.

Si la edición resulta ser más barata que la generación (lo cual parece probable dado que modifica fotogramas existentes en lugar de crear nuevos desde cero), los ahorros se multiplican.

Implicaciones del acceso a la API

¿Endpoint separado o flag de parámetro?

El análisis de WaveSpeedAI sugiere que la edición por instrucciones requerirá nuevos campos de payload —probablemente un parámetro edit_instruction y posiblemente un endpoint distinto.

Estoy esperando la documentación oficial de la API antes de la integración en producción.

Costo de tokens y cómputo

La inferencia con múltiples entradas es más pesada que la generación con una sola entrada. La edición por instrucciones procesa tanto el video fuente como la instrucción de edición, lo que implica un mayor costo de cómputo.

Presupuesta en consecuencia, pero no finalices las proyecciones hasta que los precios estén disponibles.

Consideraciones de trabajos asíncronos

Todas las operaciones de WAN se ejecutan de forma asíncrona. Envías la solicitud, obtienes un ID de tarea y haces polling hasta que se complete.

Tiempo de espera esperado según mis pruebas: de 30 segundos a 2 minutos para una edición de 5 segundos en 1080P.

Preguntas frecuentes

¿Está disponible la edición basada en instrucciones a través de la API de WaveSpeed en el lanzamiento?

WAN 2.7 se lanza dentro de marzo de 2026. La disponibilidad de la API para la edición por instrucciones aún no ha sido confirmada. WaveSpeedAI generalmente agrega nuevos endpoints en días posteriores a los lanzamientos oficiales.

¿Qué duración puede tener el video fuente para editar?

Hasta 15 segundos en 1080P. Los clips más cortos (2-5 segundos) se procesan más rápido y producen ediciones más limpias.

¿La edición preserva el audio original? Depende de la edición. Los cambios de fondo preservan el audio. Los cambios de estilo que alteran la estética visual a veces afectan la sincronización. Vale la pena probarlo caso por caso.

Publicaciones anteriores: