Kling 2.6 Motion Control: Patrones de Prompt que Realmente Mueven las Partes Correctas

Kling 2.6 Motion Control: Patrones de Prompt que Realmente Mueven las Partes Correctas

Hace unos días mientras probaba Kling 2.6, me topé una y otra vez con el mismo problema: pedía un movimiento de mano y todo el hombro se desviaba, o le pedía a la cámara que se acercara y el sujeto se lanzaba hacia adelante como si lo hubieran tirado de una cuerda. No fueron fracasos dramáticos, solo ese problema de “mover la parte equivocada” que poco a poco erosiona la confianza.

Así que aparté una tarde, preparé café, e intenté entender qué es lo que realmente escucha el modelo cuando decide qué mover. Lo que sigue no es una reseña. Son las notas que hubiera deseado tener el primer día: cómo guié a Kling 2.6 hacia un control de movimiento confiable sin convertir cada instrucción en un párrafo.

Por qué sucede “mover la parte equivocada”

Kling 2.6 es bueno en movimiento plausible. Es menos bueno en movimiento quirúrgico. Cuando le pedí que “levantara su mano derecha,” aprendí que el modelo no solo analiza las palabras: también se apoya en priors aprendidos sobre cómo se mueven normalmente los cuerpos y qué hace usualmente la cámara. Créeme, ahí es cuando la diversión realmente comienza. Aquí están los patrones que sigo viendo:

  • Referentes ambiguas: Si hay dos actores plausibles (sujeto y cámara), Kling a veces asigna movimiento a la cámara porque mantiene las escenas estables de esa manera. “Acercarse” puede convertirse en que el sujeto camine hacia adelante.
  • Oclusión + simetría: Si la mano derecha está parcialmente oculta o similar a la izquierda en postura, la espejará o intercambiará lados. La iluminación lateral y el encuadre ayudan más que las palabras aquí.
  • Borrosidad temporal: Sin beats o duración, el movimiento se emborracha en todo el clip. Ahí es cuando obtienes micro-vibración perpetua o un sujeto que no puede estarse quieto.

Nada de esto es un error. Es el modelo siendo cauteloso para el realismo. La solución, para mí, fue hablar con Kling de la manera en que un director de movimiento habla con un pequeño equipo: quién se mueve, qué parte, cuánto, qué tan rápido, y qué permanece fijo.

Checklist de tokens de movimiento

Kling no requiere sintaxis especial, pero darme a mí mismo una pequeña plantilla de “token de movimiento” me mantuvo honesto. Las escribí en línea, en lenguaje simple, como etiquetas dentro de la instrucción. Aquí está la cosa — hizo una enorme diferencia.

Mi esquema de token se ve así:

  • Actor: quién se mueve (sujeto, mano izquierda, cámara, luz de fondo). Un actor por token.
  • Acción: el verbo, mantenerlo pequeño cuando importa la precisión (inclinar, mirar, levantar, rotar ligeramente).
  • Lado/parte: extremidad u objeto exacto (muñeca derecha, ceja izquierda, dedo índice, inclinación de cámara).
  • Magnitud: pequeño, medio, grande, o grados/conteos cuando sea necesario (15°, 2 pasos, 3 fotogramas).
  • Duración + timing: cuándo sucede y cuánto dura (beat 1–2 seg, mantener 1 seg, bucle).
  • Restricción: qué permanece quieto (torso fijo, cámara fija, cara neutral).
  • Negativo: qué no debe moverse (sin cambio de hombro, sin zoom, cabello tranquilo).

Usualmente envuelvo estos entre corchetes para mantenerlos escanables para mí, de nuevo, para mí, no para Kling:

[actor: mano derecha] [action: ola] [magnitude: pequeño] [duration: 1s] [constraint: hombro bloqueado] [negative: sin movimiento de cámara]

Patrón 1: control de extremidades

El problema de la extremidad es el clásico. Quería una ola de mano sutil sin un balanceo total del cuerpo superior. Mis primeros intentos fallaron porque pedí “una ola suave.” Kling escuchó “ola” y animó toda la cadena.

Lo que funcionó mejor:

  • Nombra primero la articulación más pequeña que se mueve. “Muñeca derecha con movimiento rápido, dedos liderando, hombro permanece neutral.”
  • Añade una restricción contraria. “Torso anclado a la silla. Sin balanceo de cadera.”
  • Dale un beat. “La ola ocurre a los 0:02–0:03, luego descansa.”
  • Mantén la simetría bajo control. “La mano izquierda permanece en la mesa, quieta.”

Un fragmento de instrucción real que produjo movimiento limpio:

“El sujeto se sienta en un escritorio de madera. Luz tranquila. La muñeca derecha hace una ola pequeña de lado a lado, los dedos hacen la mayor parte del movimiento. El hombro y el codo permanecen constantes. Este movimiento ocurre una vez entre 2–3 segundos, luego la mano regresa a descansar en el escritorio. La mano izquierda permanece quieta. Sin movimiento de cámara.”

Cuando importa ser preciso, establezco un ancla visual: “La muñeca derecha descansa junto a la taza de café: solo los dedos se mueven.” Los anclajes reducen la incertidumbre del modelo sobre dónde viven las articulaciones.

Patrón 2: cámara

La mitad de mis clips de “la parte equivocada se movió” fueron realmente intercambios de cámara-sujeto. Pedí un “suave acercamiento” y el modelo hizo que el sujeto se inclinara hacia adelante. Razonable, pero no lo que quería.

Cómo separé los dos:

  • Declara un rig de cámara. “Cámara en trípode, zoom sutil del 5% en 2 segundos.”
  • Congela el sujeto. “El sujeto permanece completamente quieto, respirando solamente.”
  • Evita verbos que suenen como acciones corporales. Digo “zoom-in” o “dolly-in,” no “acercarse.”
  • Usa números. “5% de zoom, lineal, 2s, enmarcado en el centro.”

Un fragmento de instrucción que se comportó:

“Toma fija. La cámara realiza un lento y lineal zoom-in del 5% de 0–2 segundos. El sujeto no se inclina ni da un paso. Sin cambio de paralaje. El fondo permanece fijo.”

Si quiero paralaje (un dolly), lo llamo: “dolly-in de cámara, paralaje somero en la estantería, sujeto fijo al centro del encuadre.” Esa sola línea evita que el modelo simule el movimiento con una inclinación del sujeto.

Una nota más: Kling 2.6 a veces añade bamboleo manual para ‘cine.’ Si no lo deseas, dilo: “sin sacudida manual, sin micro-vibración.”

Patrón 3: micro movimiento

El micro movimiento es donde Kling 2.6 me sorprendió de buena manera. Los cambios pequeños y constantes tienden a verse naturales — sácadas oculares, respiración, arrastre de tela — si mantienes los verbos suaves y las duraciones cortas.

Lo que funcionó:

  • Ojos: “dos pequeñas sácadas oculares izquierda→centro en el primer segundo, párpados suaves, cabeza quieta.”
  • Respiración: “sutil elevación del pecho 4–6 mm en 3 segundos, luego caída, bucle una vez.”
  • Tela/cabello: “brisa apenas perceptible, las puntas del cabello se mueven, las raíces constantes: el bajo de la chaqueta ondula durante 0.5s.”
  • Accesorios: “el vapor se riza desde la taza, fino, intermitente, no turbulento.”

Lo que no:

  • Apilar muchos micros a la vez. Se convierte en ruido.
  • Usar verbos grandes con objetivos micro (“girar la cabeza ligeramente” a menudo se convierte en un movimiento completo de cabeza). Uso “ángulo,” “inclinar,” “asentar,” “derivar.”

Cuando los clips se volvían demasiado animados, añadía un techo: “el fondo permanece inmóvil: solo [X] se mueve.” Esa sola línea redujo los movimientos accidentales en todo el fotograma.

Instrucciones negativas

Las instrucciones negativas no se tratan tanto de descartar artefactos sino de asignar presupuesto de movimiento. Obtuve mejores resultados cuando usé negativas para congelar cadenas específicas.

Negativas útiles en las que me apoyé:

  • “Sin participación del hombro.” Obliga al modelo a localizar el movimiento de la mano.
  • “Sin movimiento de cámara de ningún tipo.” Elimina el bamboleo predeterminado.
  • “El cabello permanece tranquilo.” Evita que el modelo “cinematice” escenas con viento.
  • “Sin cambio de expresión facial.” Mantiene los micro movimientos de derivarse en sonrisas.
  • “Sin zoom o dolly.” Evita el intercambio de sujeto/cámara.

Y una pequeña advertencia: listas negativas largas pueden resultar contraproducentes. Dos o tres negativas dirigidas superan a una lista interminable.

Para la consistencia mientras probaba estas instrucciones, ejecutamos nuestros experimentos de Kling en WaveSpeed (nuestro entorno GPU interno) para iterar y comparar ejecuciones sin desviación de configuración.

10 instrucciones listas

Estos son starters cortos y funcionales que usé. Ajusta sujetos y estilos, pero mantén intactas las partes de movimiento.

1. Ola de muñeca limpia, torso quieto

“Una persona sentada en un escritorio de madera, luz diurna.
[actor: muñeca derecha] [action: ola pequeña de lado a lado] [magnitude: pequeño]
[timing: 2.0–3.0s, una vez] [constraint: hombro y codo constantes]
[negative: sin movimiento de cámara, sin movimiento de mano izquierda].“

2. Sutil acercamiento de cámara, sujeto congelado

“Encuadre de retrato, fondo neutral.
[actor: cámara] [action: zoom-in] [magnitude: 5%] [duration: 0–2s, lineal]
[constraint: sujeto perfectamente quieto, solo respirando]
[negative: sin dolly, sin sacudida manual].“

3. Sácadas oculares sin movimiento de cabeza

“Primer plano de cara, luz suave.
[actor: ojos] [action: dos sácadas rápidas izquierda→centro]
[timing: dentro del primer segundo]
[constraint: cabeza bloqueada, expresión neutral]
[negative: sin sonrisa, sin parpadeo durante sácadas].“

4. Girar página con dedo, no todo el brazo

“Toma desde arriba de un cuaderno abierto.
[actor: dedo índice derecho] [action: deslizar esquina de página y voltear]
[magnitude: página única] [timing: 1.5–2.5s]
[constraint: muñeca mínima, antebrazo anclado a la mesa]
[negative: sin movimiento de cámara].“

5. Inclinación de cabeza con reconocimiento, solo micro

“Toma media.
[actor: cabeza] [action: pequeña inclinación derecha luego retorno] [magnitude: 5–7°]
[timing: 1.0–1.4s]
[constraint: hombros al nivel]
[negative: sin sonrisa, sin cambio ocular].“

6. Dolly-derecha con paralaje, sujeto anclado

“Escena de estudio.
[actor: cámara] [action: dolly-derecha] [magnitude: pequeño, 20 cm]
[duration: 0–2s, suave]
[constraint: sujeto permanece en el centro del encuadre, paralaje de fondo visible]
[negative: sin zoom].“

7. Solo micro aleteo de tela

“Retrato con brisa ligera.
[actor: bajo de chaqueta] [action: breve aleteo]
[timing: 0.8–1.2s]
[constraint: cabello y follaje quietos]
[negative: sin viento global].“

8. Mecanografía de teclado con dedos aislados

“Escena de escritorio, portátil.
[actor: dedos ambas manos] [action: escribir suavemente]
[timing: ráfagas intermitentes]
[constraint: muñecas plantadas, codos constantes, torso quieto]
[negative: sin sacudida de cámara].”

9. Levantamiento de taza sin subida de hombro

“Mesa de café.
[actor: mano derecha] [action: levantar taza de cerámica, sorbo, reemplazar]
[timing: 1.0–2.5s]
[constraint: hombro y cuello quietos, codo mínimo]
[negative: sin movimiento de cámara, sin aumento de vapor].“

10. Movimiento de fondo mientras sujeto se sostiene

“Retrato callejero.
[actor: peatones de fondo] [action: paso lento izquierda→derecha]
[constraint: sujeto inmóvil, ojos a la cámara]
[negative: sin balanceo del sujeto, sin zoom].”

Si necesitas escalar precisión, apila una restricción más en lugar de otra acción. Mantiene el clip legible, para ti y para el modelo. Sin juzgamiento aquí — todos hemos estado allí.

Bien, tu turno — no me dejes colgando: ¿Cuál es la sorpresa de licencia “open weights” más ridícula que has experimentado? ¡Deja tu historia en los comentarios!