← Blog

Cómo mantener la coherencia de personajes en Seedance 2.0 (paquete de referencia + reglas)

Reduce la deriva de identidad usando un paquete de referencia, restricciones estrictas y una lista de verificación de control de calidad que te indica qué cambiar a continuación.

10 min read
Cómo mantener la coherencia de personajes en Seedance 2.0 (paquete de referencia + reglas)

¿Quieres crear videos cinematográficos como Seedance 2.0? Prueba el Generador de Video Cinematográfico de WaveSpeed para crear videos de calidad Seedance 2.0 ahora mismo.

No me propuse solucionar la deriva de identidad. Solo quería que el mismo personaje cruzara una habitación dos veces sin convertirse en un primo lejano. El primer intento se veía bien en miniatura. Luego lo revisé cuadro a cuadro y noté que la mandíbula se suavizó, el cabello perdió un rizo, y al último segundo los ojos tenían una inclinación diferente. No era perturbador, simplemente… raro. Seedance 2.0 es rápido y competente, pero la consistencia de personajes es donde puede tambalear.

Me llamo Dora. Pasé algunas noches tardías este mes ejecutando pequeños bucles y anotando lo que funcionaba. Esto es lo que realmente me dio estabilidad, y lo que no, cuando me importaba la consistencia de personajes en Seedance 2.0 más que cualquier otra cosa.

Por qué ocurre la deriva de ID (lo que el modelo “olvida”)

Seedance 2.0 está manejando dos tareas a la vez: mantener un rostro reconocible y generar movimiento que se sienta vivo. Cuando tiene que elegir, generalmente elige el movimiento. Ahí es donde se cuela la deriva de ID.

Lo que seguía viendo, intento tras intento:

  • Primero clava la silueta general (volumen del cabello, altura, complexión).
  • Luego los micro-rasgos se van desviando bajo presión: separación de ojos, longitud del filtrum, forma de las orejas, esquinas de la línea del cabello. En clips cortos, esto aparece alrededor de las transiciones y los giros de cabeza.
  • Los cambios de iluminación actúan como ediciones suaves a la identidad. Una luz lateral convirtió a mi personaje en una persona ligeramente diferente.

En la práctica (sin pretender que puedo ver los pesos): los prompts de texto empujan hacia coincidencias de categoría (“mujer joven, bob rizado, chaqueta vaquera”), mientras que las referencias anclan a la persona exacta. Si tu prompt describe demasiado, la categoría gana. Si las referencias son débiles o inconsistentes, el modelo “promedia” el rostro.

También noté que el modelo “olvida” en lugares predecibles:

  • Cuando las manos cruzan el rostro, trata el siguiente fotograma como un mini-reordenamiento.
  • Los giros rápidos en yaw rompen la fidelidad de orejas y sienes.
  • Las texturas de ropa con patrones repetitivos a veces desvían la atención de los puntos de referencia faciales.

Entonces la deriva no es aleatoria. Es un desvanecimiento lento de lo específico a lo genérico. Saber eso cambió cómo preparo los inputs y cómo escribo los prompts. Si también estás lidiando con inestabilidad sutil de fotogramas, esta breve guía para solucionar parpadeos e inestabilidad en Seedance 2.0 va de la mano con el control de identidad.

Construye un paquete de referencia (imágenes + clip corto + ancla de estilo)

Mi mayor avance vino de un movimiento aburrido: construí un pequeño y disciplinado paquete de referencia. El anuncio oficial de ByteDance destaca que Seedance 2.0 “sobresale en el seguimiento de instrucciones, permitiendo una reproducción precisa y una consistencia de sujeto estable incluso para historias complejas con ricas interacciones de personajes.” Cuando le di a Seedance 2.0 menos anclas pero más claras, mi personaje se mantuvo cohesionado.

Esto es lo que mejor funcionó para mí:

  • Tres imágenes como máximo, no diez. Elijo: una de frente, una en tres cuartos, una de perfil. Misma sesión, misma iluminación. Evito sonreír en una y estar neutral en otra: demasiada variedad de expresión hace que el modelo elija un rostro intermedio.
  • Un clip de referencia de 2–3 segundos con un gesto de cabeza neutro o un parpadeo lento. Recorto los fotogramas muertos y mantengo el fondo simple. Esto le dio al modelo una línea de base en movimiento para el comportamiento de mandíbula y ojos.
  • Un ancla de estilo: una imagen que establece la gradación y el contraste. Usé un fotograma fijo de una exportación anterior que me gustó. Si omitía esto, la identidad se mantenía pero el ambiente se desviaba; con él, ambos permanecían más cercanos.

Lo que no ayudó:

  • Los collages. Me parecen organizados, pero el modelo parece tratarlos como una escena concurrida.
  • Iluminación mixta. Tenía una toma interior cálida y una exterior fría: el modelo las promedió en una neutral, lo que cambió ligeramente el tono de piel y la edad percibida.
  • Solo retratos en alta resolución. Curiosamente, insertar un fotograma de resolución media entre dos nítidos ayudó, quizás porque suavizó el sobreajuste a los poros y preservó la forma.

Guardo este paquete en una sola carpeta con nombres simples (front.jpg, threequarter.jpg, profile.jpg, ref.mp4, look.jpg). Reduce el tiempo de configuración a un minuto y no tengo que dudar sobre qué incluir. Esa pequeña reducción en la fricción mental importa cuando estoy iterando mucho.

Reglas de prompt que estabilizan la identidad (qué fijar, qué evitar)

Dejé de escribir prompts elaborados. Cuanto más intentaba impresionar al modelo, más ignoraba a mi personaje y perseguía la estética. Aquí está el enfoque más discreto que mantuvo la consistencia de personajes en Seedance 2.0 para mí.

Lo que fijo:

  • Nombro a la persona como una entidad única, aunque sea ficticia: “Mismo personaje que en las referencias: una identidad consistente.” Parece redundante, pero evitó que el modelo muestreara “variantes de tipo.”
  • Fijo el rango de edad, los detalles del cabello y uno o dos rasgos distintivos que más importan para el reconocimiento: “finales de los 20, rizos oscuros y apretados a la altura de las orejas, pequeño aro plateado en la oreja izquierda.” Muy pocos detalles y generaliza. Demasiados y elige los que le convienen.
  • La intención del plano y el ritmo: “bucle de caminar lento a través del encuadre, expresión sutil, sin giros dramáticos.” La disciplina de movimiento es disciplina de identidad.

Lo que evito:

  • Palabras de estilo vagas que compiten con el ancla: “cinematográfico,” “onírico,” “crudo.” Si necesito un look, lo establezco con la referencia de estilo en lugar de adjetivos.
  • La microgestión del vestuario que cambia la silueta a mitad del clip (bufandas, chaquetas sueltas con viento). Si el vestuario debe ser específico, lo mantengo ajustado y estático.
  • Acciones complejas. Cada beat adicional es una oportunidad para un nuevo rostro. Comienzo simple: caminar, sentarse, girar 15 grados, parpadear.

Dos trucos de formulación que ayudaron:

“Mantén las proporciones faciales idénticas a las referencias en todos los fotogramas.” Suena autoritario. Funcionó más veces que no.

“Sin joyería nueva, sin cambios de maquillaje, sin movimiento de cabello más allá del balanceo natural.” Estos pequeños ajustes cerraron brechas extrañas que no pensé en nombrar.

Después de cinco intentos, noté algo pequeño: acortar mis prompts en un tercio mantuvo los resultados más cercanos. Mi intuición: menos tokens dispersos jalando al modelo hacia un bufet de estilos.

Lista de verificación de QA antes de volver a ejecutar (rostro, manos, logos, vestuario)

Antes solía volver a ejecutar por instinto. Ahora hago una revisión de 60–90 segundos con la misma lista de verificación cada vez. Ahorra tiempo al evitar reintentos a ciegas.

Rostro

  • Congelo en el fotograma 1, el punto medio y el último fotograma. Comparo la distancia entre ojos y el ángulo de la mandíbula con front.jpg. Si ambos se desvían más de “un ancho de píxel a escala de miniatura,” vuelvo a ejecutar.
  • Observo un desplazamiento lento a través de los parpadeos. Si el borde del párpado cambia de grosor a mitad del parpadeo, la identidad está en riesgo.

Manos

  • Verifico cualquier momento en que una mano cruza el rostro. Si el rostro reaparece más delgado o con un puente nasal diferente, lo considero un fallo definitivo, no un quizás.
  • Cuento los artefactos en los dedos. Un error a menudo predice un segundo deslizamiento de identidad 10–15 fotogramas después.

Logos y marcas pequeñas

  • Si un pequeño logo en una camiseta se invierte o se suaviza, espero que los micro-rasgos faciales también oscilen. Es una buena advertencia temprana.
  • Lunares o pecas: si migran, no lucho contra eso en la gradación. Corrijo el input o el movimiento en su lugar.

Vestuario

  • El arrastre de patrones (muaré) puede dominar la atención. Si lo veo, cambio la prenda por una lisa o modifico la exposición en el ancla de estilo.
  • Los escotes que se desplazan revelan las clavículas de manera diferente: eso puede alterar sutilmente el ancho facial percibido.

Puntúo cada intento de forma aproximada: 0 (reiniciar), 1 (utilizable para planos de corte), 2 (suficientemente bueno para anclar una secuencia). Si consigo dos “2” seguidos, dejo de ajustar. No es perfecto, solo lo suficientemente estable para que la historia lo sostenga.

Escalera de soluciones si la deriva persiste (cambiar referencias, ajustar restricciones, acortar el movimiento)

Cuando la identidad seguía deslizándose a pesar de inputs limpios y prompts cuidadosos, dejé de adivinar y seguí una escalera simple. Pruebo un peldaño a la vez y ejecuto una prueba de 2–3 segundos.

  1. Cambiar referencias, no todo
  • Reemplaza solo el perfil o solo el tres cuartos con una coincidencia más cercana en iluminación. Mantén el resto. Las renovaciones completas borraron el progreso que no podía recuperar fácilmente.
  • Si la expresión varía, normalízala: neutral en todas las imágenes fijas. Una sola sonrisa grande puede ampliar el volumen de los pómulos durante todo el clip.
  1. Ajustar restricciones en lenguaje simple y directo
  • Añade una restricción por intento: “sin giros de cabeza más de 10°,” luego “sin oclusiones en el rostro,” luego “mantener el cabello pegado a la cabeza: sin viento.” Ir añadiéndolas gradualmente funcionó mejor que incluirlas todas de golpe.
  • Si el modelo se resiste, cambia a negativas: “evitar giros dramáticos: evitar que el cabello se levante: evitar cambios en los accesorios.” Las negativas parecían respetarse con más rigor.
  1. Acortar el movimiento, luego reconstruir
  • Reduce la ventana de acción a 1,5–2 segundos y elimina beats: solo una caminata, solo una mirada. Una vez que el rostro se mantiene, añade un beat de vuelta.
  • Para los bucles, evito superposiciones cíclicas perfectas: pueden provocar un “reinicio” del rostro en la unión.
  1. Reducir la entropía visual
  • Simplifica el fondo y reduce el contraste en el ancla de estilo un poco. Cuando la escena se calmó, Seedance 2.0 dedicó más “atención” al rostro.
  • Desatura ligeramente la piel en el ancla si el tono sigue variando entre tomas. Parecía desalentar los cambios repentinos de cálido/frío.
  1. Último recurso: ceder a la silueta
  • Si una mandíbula única no se mantiene, me apoyo en la forma del cabello, los pendientes y el ajuste del vestuario. Los espectadores leen la identidad desde lejos más de lo que admitimos. No es trampa: es edición.

A lo largo de ocho pruebas cortas, esta escalera redujo mis reintentos en aproximadamente un tercio. Más importante aún, redujo el ruido mental. No sentía que estaba apostando en cada render.

Para quién sirve esto: si te importa la consistencia de personajes en Seedance 2.0 más que los movimientos de cámara elaborados, este camino más lento y estable probablemente se sentirá natural. Si quieres grandes arcos, whips o monólogos expresivos de una sola vez, encontrarás los límites rápido. Aún puedes llegar ahí, solo constrúyelo en capas.


¿Quieres crear videos cinematográficos como Seedance 2.0? Prueba el Generador de Video Cinematográfico de WaveSpeed para crear videos de calidad Seedance 2.0 ahora mismo.