Kling 2.6 动作控制:真正能让正确部分移动的提示词模式
我在测试Kling 2.6的前几天,总是被同样的问题绊倒:我要求做一个手部挥动,整个肩膀就会漂移,或者我要求摄像头推进,拍摄对象就会像被绳子拉着一样向前冲。不是戏剧性的失败,只是那种低级的”移动错误部分”的问题,会慢慢侵蚀你的信任。
所以我花了一个下午,泡了杯咖啡,试图理解这个模型在决定什么移动时实际上在听什么。接下来的内容不是一篇评论。这是我希望从第一天就有的笔记:我如何在不把每个提示词都变成一个段落的情况下,引导Kling 2.6实现可靠的动作控制。
为什么会”移动错误部分”
Kling 2.6擅长制作合理的动作。但它在精确的动作上不太擅长。当我要求它”抬起她的右手”时,我了解到该模型不仅仅解析文字:它还依赖于对身体通常如何运动以及摄像头通常做什么的学习先验。相信我,那时乐趣就真正开始了。
以下是我反复看到的模式:
- 含糊的指代: 如果有两个似是而非的演员(拍摄对象和摄像头),Kling有时会将动作分配给摄像头,因为这样可以保持场景稳定。“推进”可能会变成拍摄对象向前走。
- 遮挡+对称: 如果右手部分被隐藏或姿势与左手相似,它会镜像或交换两侧。侧面照明和取景在这里比措辞的帮助更大。
- 时间模糊: 没有节拍或持续时间,动作会在整个片段中模糊。这时你会得到永久的微抖动或无法保持静止的拍摄对象。
这些都不是bug。这是模型为了真实性而采取的对冲。对我来说,解决方案是像动作导演对一个小队讲话那样与Kling交流:谁移动、哪个部分、移动多远、移动多快,以及什么保持静止。
动作令牌检查清单
Kling不需要特殊的语法,但给自己一个小小的”动作令牌”模板让我保持诚实。我在提示词中内联编写它们,用纯语言,就像提示词内的标签。事情是——这产生了巨大的差异。
我的令牌模板看起来像这样:
- 演员: 谁移动(拍摄对象、左手、摄像头、背景灯光)。每个令牌一个演员。
- 动作: 动词,当需要精确时保持较小(倾斜、瞥一眼、抬起、稍微旋转)。
- 侧面/部分: 确切的肢体或物体(右腕、左眉毛、食指、摄像头偏航)。
- 幅度: 小、中、大,或在需要时用度数/计数(15°、2步、3帧)。
- 持续时间+时序: 何时发生以及持续多长时间(拍子1–2秒、保持1秒、循环)。
- 约束: 什么保持静止(躯干锁定、摄像头锁定、脸部中立)。
- 负面: 什么必须不动(无肩膀移动、无缩放、头发保持平静)。
我通常将这些用括号括起来,以使它们对我来说保持可扫描的,同样,是为了我,而不是为了Kling:
[actor: right hand] [action: wave] [magnitude: small] [duration: 1s] [constraint: shoulder locked] [negative: no camera movement]
模式1:肢体控制
肢体问题是经典问题。我想要一个微妙的手部挥动,没有完整的上身摇晃。我的最初尝试失败了,因为我要求”温柔的挥动”。Kling听到”挥动”,就给整个链条做了动画。
更有效的做法:
- 首先命名最小的移动关节。“右腕轻弹,手指引导,肩膀保持中立。”
- 添加反约束。“躯干固定在椅子上。无臀部摇晃。”
- 给它一个拍子。“挥动发生在0:02–0:03,然后休息。”
- 保持对称性检查。“左手保持在桌子上,静止。”
产生清洁动作的真实提示词片段:
“拍摄对象坐在木桌前。平静的灯光。右腕做一个小的左右挥动,手指做大部分的动作。肩膀和肘部保持稳定。这个动作在2–3秒之间发生一次,然后手返回到休息状态放在桌子上。左手保持静止。没有摄像头移动。”
当需要精确时,我设置了一个视觉锚:右腕靠着咖啡杯:只有手指移动。“锚点减少了模型对关节位置的不确定性。
模式2:摄像头
我一半的”错误部分移动”片段实际上是摄像头–拍摄对象的交换。我要求”温柔的推进”,模型让拍摄对象向前倾身。合理,但不是我想要的。
我如何分离两者:
- 声明摄像头装置。“摄像头在三脚架上,在2秒内微妙的5%缩放。”
- 冻结拍摄对象。“拍摄对象完全静止,仅呼吸。”
- 避免听起来像身体动作的动词。我说”缩放进入”或”推进”,而不是”靠近”。
- 使用数字。“5%缩放,线性,2秒,中心框架。”
行为良好的提示词片段:
“锁定镜头。摄像头在0–2秒内执行缓慢、线性的5%缩放。拍摄对象不倾身或踏步。无视差变化。背景保持固定。”
如果我想要视差(推进),我会这样说:“摄像头推进,书架上的浅视差,拍摄对象锁定在框架中心。“这一行阻止了模型用拍摄对象倾身来伪造这个动作。
还有一个注意事项:Kling 2.6有时会添加手持抖动以获得”电影感”。如果你不想要那样,说出来:“没有手持晃动,没有微抖动。“
模式3:微动作
微动作是Kling 2.6令我惊喜的地方。小的、稳定的变化往往看起来很自然——眼球跳动、呼吸、织物漂移——如果你保持动词温柔并且持续时间短。
有效的做法:
- 眼睛: “第一秒内两个小的眼球跳动左→中心,眼睑柔软,头部静止。”
- 呼吸: “微妙的胸部上升4–6毫米,持续3秒,然后下降,循环一次。”
- 织物/头发: “几乎看不见的微风,头发尖端移动,根部稳定:夹克下摆抖动0.5秒。”
- 道具: “蒸汽从杯子中卷起,细细的,间断的,不湍流的。”
不有效的做法:
- 一次堆叠许多微动作。它变成了噪音。
- 使用大动词与微目标(“轻微转头”通常变成完整的点头)。我使用”角度”、“倾斜”、“安定”、“漂移”。
当片段变得太活跃时,我添加了一个上限:“背景保持静止:仅[X]移动。“那一行减少了意外的跨框架抖动。
负面提示词
负面提示词不是关于驱逐伪影,而是关于分配动作预算。当我使用负面来冻结特定链条时,我获得了更好的结果。
我依赖的有用的负面:
- “没有肩膀参与。“迫使模型将手部动作本地化。
- “完全没有摄像头移动。“杀死默认抖动。
- “头发保持平静。“阻止模型用风”电影化”场景。
- “没有面部表情变化。“保持微动作不漂移成微笑。
- “没有缩放或推进。“避免拍摄对象/摄像头交换。
还有一个小警告:长的负面列表可能会适得其反。两个或三个针对性的负面胜过一长串。
为了在测试这些提示词时保持一致性,我们在WaveSpeed(我们的内部GPU环境)上运行我们的Kling实验,以迭代和比较运行而不会出现设置漂移。

10个现成的提示词
这些是我使用的简短、有效的启动器。调整主题和风格,但保持动作部分不变。
1. 清洁的腕部挥动,躯干安静
“一个坐在木桌前的人,日光。
[actor: right wrist] [action: small side-to-side wave] [magnitude: small]
[timing: 2.0–3.0s, once] [constraint: shoulder and elbow steady]
[negative: no camera movement, no left-hand motion]。“
2. 微妙的摄像头推进,拍摄对象冻结
“肖像框架,中立背景。
[actor: camera] [action: zoom-in] [magnitude: 5%] [duration: 0–2s, linear]
[constraint: subject perfectly still, only breathing]
[negative: no dolly, no handheld shake]。“
3. 眼球跳动,没有头部运动
“近距离脸部,柔和的光线。
[actor: eyes] [action: two quick saccades left→center]
[timing: within first second]
[constraint: head locked, expression neutral]
[negative: no smile, no blink during saccades]。“
4. 用手指翻页,不是整个手臂
“笔记本的俯视图。
[actor: right index finger] [action: slide page corner and flip]
[magnitude: single page] [timing: 1.5–2.5s]
[constraint: wrist minimal, forearm anchored to table]
[negative: no camera move]。“
5. 头部倾斜确认,仅微动
“中距离镜头。
[actor: head] [action: small tilt right then return] [magnitude: 5–7°]
[timing: 1.0–1.4s]
[constraint: shoulders level]
[negative: no smile, no eye shift]。“
6. 推进右侧有视差,拍摄对象固定
“工作室场景。
[actor: camera] [action: dolly-right] [magnitude: small, 20 cm]
[duration: 0–2s, smooth]
[constraint: subject remains center-framed, background parallax visible]
[negative: no zoom]。“
7. 织物微抖动仅
“肖像与轻微微风。
[actor: jacket hem] [action: brief flutter]
[timing: 0.8–1.2s]
[constraint: hair and foliage still]
[negative: no global wind]。“
8. 隔离手指的键盘输入
“桌子场景,笔记本电脑。
[actor: fingers both hands] [action: type softly]
[timing: intermittent bursts]
[constraint: wrists planted, elbows steady, torso still]
[negative: no camera shake]。”

9. 杯子提起,没有肩膀抬起
“咖啡馆桌子。
[actor: right hand] [action: lift ceramic cup, sip, replace]
[timing: 1.0–2.5s]
[constraint: shoulder and neck quiet, minimal elbow]
[negative: no camera move, no steam surge]。“
10. 背景运动,拍摄对象保持
“街道肖像。
[actor: background pedestrians] [action: slow pass left→right]
[constraint: subject motionless, eyes at camera]
[negative: no subject sway, no zoom]。”
如果你需要扩展精确度,添加一个更多的约束而不是另一个动作。它保持片段的可读性,对你和对模型。这里没有评判——我们都经历过。
好吧,现在轮到你了——别让我失望:你遇到过最荒谬的”开放权重”许可证惊喜是什么?在评论中分享你的故事!





