WAN 2.5 ComfyUI Workflow: Mejor Grafo de Nodos + Configuraciones para Resultados Estables

title: “WAN 2.5 Flujo de trabajo estable en ComfyUI” date: “2026-01-28” author: “WaveSpeedAI” description: “Una configuración mínima de ComfyUI para WAN 2.5 que mantiene la consistencia sin complejidad innecesaria.” tags: [“wan”, “comfyui”, “video-generation”, “workflow”]

¡Hola! Soy Dora. Ese día, estaba cosiendo pequeños bucles de producto para una demostración, y mi configuración habitual seguía desviándose: las mangas del personaje cambiaban, el fondo pulsaba, el movimiento temblaba en los bordes. Nada terrible, solo distrayente. Quería un flujo de trabajo de video que se comportara como una mano firme, no como un juego de adivinanzas.

Pasé algunas tardes este mes (enero de 2026) consiguiendo que WAN 2.5 funcionara limpiamente en ComfyUI. Nada llamativo. Mantuve el gráfico mínimo, bloqueé algunas configuraciones y probé diferentes formas de mantener el movimiento estable sin perder las partes interesantes. Aquí está lo que se estableció y dónde no. Si estás buscando “WAN 2.5 ComfyUI” porque quieres algo funcional, no algo de demostración, esta es la versión que te entregaría tomando un café.

Gráfico de nodos mínimo

Intenté algunos gráficos expansivos al principio. Se veían poderosos en el lienzo y se sentían frágiles en la práctica. La configuración más confiable para WAN 2.5, al menos en mi máquina (RTX 4090, 24 GB VRAM), fue aburrida a propósito.

Con lo que terminé:

Cargador de modelo para WAN 2.5 (los pesos oficiales + configuración: cargados una vez al inicio)
Codificador de texto (un prompt, un prompt negativo)
Nodo de semilla (una sola semilla, no por fotograma)
Sampler para video (sampler de WAN o un sampler de video compatible en ComfyUI)
VAE (decodificación al final: sin re-codificaciones a mitad del gráfico)
Guardar video

Eso es todo. Sin upscalers extra, sin adaptadores de guía, sin ramas de denoise. No porque sean malos, sino porque quería ver qué hace WAN 2.5 sin ayuda. La ventaja fue clara: menos partes móviles, menos sorpresas. Cuando algo parpadeaba, sabía que no era un nodo externo.

Si comienzas desde cero, instalaría ComfyUI nuevo, añadiría ComfyUI Manager para una gestión de nodos más fácil, luego añadiría el paquete de nodos WAN 2.5 de su fuente oficial. Después de eso, resiste la tentación de decorar el gráfico. Consigue un clip de 3-4 segundos renderizado limpiamente en una resolución modesta. Luego añade complejidad si la necesitas.

Línea base de configuración

Probé un puñado de líneas base y las ajusté hacia arriba o hacia abajo hasta que los clips dejaron de tambalearse.

Mi punto de partida estable:

Resolución: 896×504 (16:9). Divisible por 16, ligero en VRAM, lo suficientemente bueno para juzgar el movimiento.
Duración: 48 fotogramas a 12 fps (~4 segundos). Suficientemente largo para detectar desviación, suficientemente corto para iterar.
Pasos: 28-32. Por debajo de 24 tendía a desenfocar el movimiento: por encima de ~36 no me compraba mucho.
Guía CFG: 4.0-6.0. Me senté mayormente en 5.0. Los valores más altos empujaban el estilo pero aumentaban el parpadeo micro.
Sampler: Euler o DPM++ 2M SDE (compilación compatible con video). DPM++ se sintió un poco más estable fotograma a fotograma.
Fuerza de denoise: 0.85-0.9 para texto a video. Si me condicionaba en una imagen, bajaba a 0.7-0.8.
Semilla: fija. Misma semilla en todo el clip.

En la 4090, esta línea base renderizaba ~4 segundos en aproximadamente 2-3 minutos. En una 4080 Super que pedí prestada por una tarde, fue más cercano a 3-4 minutos. Cuando pasé a 1024×576, el tiempo de renderización subió ~20-30% y el uso de VRAM se movió un poco más allá de 17 GB.

Nota pequeña: si estás persiguiendo fps más alto para reproducción (digamos 24), encontré mejores resultados generando a 12 fps e interpolando después que intentando renderizar directamente a 24. El sampler tenía un tiempo más fácil manteniéndose consistente.

Estrategia de consistencia

Mantener las apariencias consistentes es básicamente tres palancas: semilla, acondicionamiento y cómo agresivamente empujas el prompt.

Lo que funcionó para mí:

Bloquea la semilla y no la toques. En una ejecución, habilité accidentalmente la siembra por fotograma, caos de vestuario instantáneo.
Mantén los prompts cortos. WAN 2.5 parece más feliz con sustantivos claros y una pista de estilo suave que con adjetivos apilados. “Un barco de papel en una calle lluviosa, luz suave, colores apagados” fue mejor que un párrafo.
Usa una imagen de referencia solo si la necesitas. El acondicionamiento de imagen ayudó a anclar el diseño de caracteres (cabello, atuendo) pero a veces sobre-restringió el movimiento. Cuando la usé, bajé la fuerza de denoise y CFG por ~0.5.
Los prompts negativos pueden calmar el parpadeo: “iluminación dura, reflejos parpadeantes, distorsión de lente.” Solo no viertas todo lo que te disgusta: 3-6 elementos es suficiente.

También probé una rama IP-Adapter para bloquear la pose entre fotogramas. Ayudó para escenas de “naturaleza muerta con un movimiento pequeño” (vapor, ondas), pero para el movimiento de personajes a veces pellizqué gestos. Buena herramienta, ganancia situacional.

Estabilidad de movimiento

Esta fue la parte más complicada. Movimiento suave sin convertir todo en gelatina.

Los pequeños ajustes que importaban:

Restricción de guía. Mantener CFG cerca de 5.0 redujo pequeños parpadeos de iluminación entre fotogramas.
Techo de conteo de pasos. Cruzar ~36 pasos me dio fotogramas más nítidos pero más micro-fluctuación con el tiempo.
Elección del sampler. DPM++ 2M SDE fue consistentemente más tranquilo en panorámicas y zooms lentos: Euler se sintió más ágil pero parpadeó en bordes de alto contraste.
Verbos de prompt. Palabras como “tembloroso, manual, caótico” hacen lo que dicen. Las evité a menos que quisiera ese aspecto.
Fuentes de luz. Las luces puntuales duras y los reflejos especulares alentaron el brillo. “Cielo nublado” o “iluminación softbox” mantuvo las superficies estables.

Cuando necesitaba más agarre, añadí dos cosas post-renderización en lugar de dentro del gráfico:

Una pasada de deflicker ligera (deflicker de DaVinci Resolve o un filtro FFmpeg) a baja intensidad.
Interpolación de fotogramas 12→24 fps con interpolación compensada por movimiento. Suavizó el movimiento percibido sin confundir al modelo durante la generación.

Una sorpresa: los empujes de cámara (dolly-in lento) se mantuvieron mejor que los pans laterales. Si un pan de izquierda a derecha seguía rasgándose en la señalización, reformulé el prompt a “la cámara se mueve gentilmente hacia adelante” y obtuve resultados más limpios con una sensación similar.

Renderización en lotes

No esperaba que el lote ayudara, pero lo hizo, principalmente para la toma de decisiones. Ejecutar 4-8 semillas seguidas expuso qué prompts tenían piernas reales.

Lo que usé:

Un nodo simple de “Semilla (lote)” alimentando el mismo gráfico.
Longitud de cola de 4-6 trabajos. Pasado eso, comencé a cuidar temperaturas sin buena razón.
Misma configuración de línea base en todo el lote: solo semilla variada.

Consejos de algunas noches de ejecuciones:

Mantén la duración corta en lotes (2-3 segundos). Sabrás en un segundo si una semilla es prometedora.
Guarda con nombres de archivo informativos: slug de prompt + semilla + resolución + fps. Añadí la semilla a los metadatos del video también, yo futuro me lo agradecerá.
Si VRAM se dispara, reduce el tamaño del lote a 1 pero mantén la lista de semillas. Aún es un lote en espíritu.

Probé lotes con diferentes valores de CFG en un solo trabajo. Funcionó, pero enturbiaron la comparación. Obtuve lecturas más limpias aislando una variable por lote.

Errores comunes

Unos pocos delincuentes repetidos se presentaron. Ninguno fue dramático, pero sí se comieron tiempo hasta que los escribí.

CUDA sin memoria. Generalmente una señal de que había empujado la resolución justo pasado un acantilado. Soluciones: bajar ancho/alto por 64 px, reducir pasos por 4-6, o cerrar cualquier cosa comiendo VRAM (las pestañas del navegador cuentan). Precisión media (fp16) ayudó.
Modelo/configuración no coincidente. Si el cargador WAN 2.5 y su configuración no están de acuerdo, obtendrás errores de forma o dtype. Reinstalar el paquete de nodos y reseleccionar la configuración exacta lo solucionó.
Dimensiones no divisibles. Los decodificadores de video son más exigentes. Me atengo a múltiplos de 16 para ancho y alto.
Códec no soportado. El nodo Guardar video a veces predeterminaba un códec que mi FFmpeg del sistema no le gustaba. Configuré H.264 con yuv420p explícitamente para evitar fotogramas verdes.
Prompts rotos. Los negativos sobre-especificados hicieron que las caras colapsaran. Quitar “deformado, desfigurado, feo” (la boilerplate usual) en realidad mejoró la estabilidad en varios clips.

Cuando los logs se pusieron ruidosos, revisé dos cosas primero: la versión de ComfyUI (actualiza si estás unas semanas atrás), y el controlador NVIDIA. Dos tercios de mi extrañeza vivía allí. Si estás atrapado, los problemas de ComfyUI GitHub son sorprendentemente directos sobre patrones de error. Si prefieres enfocarte en prompts y movimiento en lugar de controladores y límites de VRAM, esa es una razón por la que construimos WaveSpeed. Ofrecemos acceso gestionado a modelos como WAN 2.5 a través de una capa de API estable, para que puedas generar sin mantener la pila local.

Exportación

Dejé de pensar en la exportación una vez que elegí un camino limpio.

Lo que uso para borradores:

Códec: H.264
Formato de píxel: yuv420p
FPS: coincidir con generación (generalmente 12)
Velocidad de bits: constante 8-12 Mbps para 896×504

Para edición, exporto con más pérdida primero, luego up-convierto solo los ganadores:

Interpola 12→24 fps en post.
Si necesito archivos amigables con calificación, re-renderizo finales a ProRes 422 LT. Más pesado, pero mucho mejor para pasadas de color.

Dos notas pequeñas que me ahorraron re-renderizaciones:

Cambios de color: algunos reproductores levantan negros en yuv420p. Si se ve mal en VLC pero bien en Resolve, es el reproductor.
Audio: el nodo Guardar video no lo añadirá. Si necesito una banda sonora temporal, mezclo con FFmpeg después.

También incrusto la semilla, pasos, CFG y resolución en el nombre del archivo y en un JSON complementario. Es aburrida contabilidad que previene arqueología futura.

Idea de plantilla

La plantilla que mantengo ahora es pequeña y tiene tres conmutadores.

Esqueleto de gráfico:

Cargador WAN 2.5 → codificar texto → semilla fija → sampler de video → decodificación VAE → Guardar video

Tres ramas opcionales que puedo activar o desactivar:

Acondicionamiento de imagen de referencia. Cuando quiero personajes estables. Viene con una bajada automática en denoise y CFG.
Horario de prompt. Un prompt de dos fases suave para clips con un ritmo simple (p. ej., “lluvia comienza” después de un segundo). Mantengo transiciones suaves para evitar parpadeo.
Lista de semillas en lote. Un solo campo donde pego 3-8 semillas.

Valores predeterminados horneados:

896×504 a 12 fps, 48 fotogramas, CFG 5.0, pasos 30
Exportación H.264 con yuv420p, plantilla de nombre de archivo que incluye la semilla

Es lo opuesto a llamativo, y ese es el punto. Quiero una plantilla que me empuje hacia los mismos hábitos cada vez: clips cortos primero, una variable a la vez, notas mientras voy.

Quién se ajusta a esto: cualquiera que valore la constancia sobre la sorpresa, equipos de producto que hacen tomas repetibles, creadores solitarios que necesitan un aspecto predecible, y personas que encuentran gráficos gigantes más cansadores que empoderadores.

A quién no le gustará: si amas máximos deslizadores y apariencias emergentes caóticas, te rebotatás con esto. Está bien.

Por qué importa para mí: WAN 2.5 en ComfyUI finalmente se sintió como si respetara mi atención. Menos perillas, compensaciones más claras, y resultados en los que podía confiar lo suficiente como para construir.

Aún tengo curiosidad por cómo se comporta WAN a resoluciones más altas y secuencias más largas, pero no me he apurado. La victoria tranquila para mí fue notar que cambios pequeños, un CFG más tranquilo, una semilla fija, iluminación más suave, hicieron más por la estabilidad que cualquier nodo héroe. Seguía esperando un truco. Resultó ser un sistema.