← 博客

Z-Image-Turbo ControlNet 指南:深度图、Canny 边缘与姿势控制精准布局

掌握 Z-Image-Turbo ControlNet 的深度图、Canny 边缘和姿势模式。了解何时使用各种模式、强度设置,以及如何在更换风格的同时保持构图。

2 min read
Z-Image-Turbo ControlNet 指南:深度图、Canny 边缘与姿势控制精准布局

嘿,朋友们,最近怎么样?我是 Dora。第一次尝试用火柴人姿势来引导图像生成时,结果看起来像是一个人体模型从旧货店逃了出来。倒不是说有多糟糕,只是……感觉不对劲。我希望模型能遵循结构,同时又不会让风格变得生硬。于是在 2026 年 1 月,我花了几个下午在 Z-Image-Turbo 中测试 ControlNet,用的都是小型的真实任务:把餐巾纸上的草图变成清晰的渲染图、保持建筑的几何结构完整、在不丢失情绪感的情况下微调角色姿势。这篇指南是我希望自己在第一天就能拥有的笔记,安静、实用,足以帮你判断这个工具是否适合你的工作流程。

什么是 ControlNet?

ControlNet 是一种通过结构性提示来引导图像模型的方法,比如边缘、深度或人体姿势,同时仍然让模型以自己的风格进行绘制。与其不断强化提示词或堆砌负向标记,不如给它提供一张单独的”控制”图像,捕捉场景的骨架。模型随后会融合结构与风格,理想情况下省去大量繁复的调试工作。

将结构与风格分开

在实践中,我是这样理解的:

  • 提示词和模型检查点负责风格(光线、纹理、氛围)。
  • ControlNet 负责结构(构图、轮廓、空间关系、姿势)。

当这两者各司其职时,我得到的异样结果就会少很多。如果我试图用提示词技巧来强制控制结构,通常会付出代价——比例失调,或者在后续迭代中发生漂移。

控制模式的工作原理

每种模式从输入中提取不同的映射图:

  • 深度模式估算 3D 距离,让模型感知前景和背景的空间关系。
  • Canny 模式提取清晰的边缘,直接但可靠。
  • 姿势模式识别人体关键点和骨架,非常适合动作或跨帧的一致性。

Z-Image-Turbo(根据我 2026 年 1 月的测试)将这些作为 ControlNet 模式开放,可以按请求切换。各平台的名称可能有所不同,但原理是一样的。如果你想了解正式的技术背景,ControlNet 论文Stable Diffusion AUTOMATIC1111 ControlNet 文档 是最好的起点。

三种控制模式详解

深度模式——3D 空间关系

深度模式适用于距离感至关重要的场景:建筑、室内、风景,任何需要”这个物体在那个物体前面”这一关系保持成立的情形。在我的测试中,深度模式对纹理和颜色变化比较宽容,但对相机距离和大形体的保护则相当严格。当我想要不同的镜头效果(更宽的视角)但不改变深度图时,它会抵抗这种变化——这一点我很欣赏。

现场笔记:如果你的参考图有尴尬的透视,深度模式会很乐意保留下来。参考照片倾斜,结果就会倾斜。我学到的教训是:先修正透视,再发送图片。

Canny 模式——边缘检测

Canny 是三种模式中最精确的一种。它提取边缘,忽略内部纹理。当我有铅笔草图或线框图,并且希望模型严格按线条生成时,我就用它。它对文字块、Logo 和产品轮廓的保持效果比深度模式更好。但它也有脆弱之处:如果强度调得太高,可能会压平风格,或者在边缘周围产生色带。

现场笔记:低对比度的边缘有时会在 Canny 映射中消失。我开始在发送草图之前先提高对比度。改动很小,但意外减少了很多。

姿势模式——人体关键点

姿势模式映射关节和肢体位置。它关注的不是面部相似度,而是身体节奏——手放在哪里、膝盖的弯曲程度、肩膀的倾斜角度。当我为故事板勾勒角色动作时,姿势模式让我在改变服装、光线和情绪的同时,保持动作的可读性。

现场笔记:手部效果有改善,但仅限于姿势本身的范围内。如果骨架暗示五根短短的手指挤在一起,模型不会凭空变出优雅的手。姿势模式保留的是意图,它本身不修复解剖结构。

何时使用各种模式

深度:建筑、风景

  • 当相机位置和比例尺感很重要时使用。
  • 适合:建筑、室内、产品置于环境中的拍摄。
  • 如果你只需要清晰的线条细节则不适合:深度对精准 Logo 来说可能过于模糊。

我的观察:深度模式对光线位置有微妙的引导作用。如果某面墙在深度图中更靠近,模型会尊重光线落在它上面的方式,我不需要在提示词中过度指定光线。

Canny:草图、精确形状

  • 当你需要清晰轮廓和可靠对齐时使用。
  • 适合:UI 线框、包装设计、线稿上色。
  • 注意:强度过高会导致风格过于受限、着色平面化。

我的观察:Canny 比其他任何模式都更好地保留了文字框和图标间距。我仍然不会用 AI 排定最终文字,但在布局构思阶段,它大大降低了摩擦。

姿势:角色、动作场景

  • 当肢体语言比精确面部更重要时使用。
  • 适合:关键帧、漫画、时尚姿势。
  • 不适合:没有额外面部参考工作流时对人物的严格还原。

我的观察:姿势模式稳定了多镜头序列。我可以在探索不同场景和配色的同时保持相同的动作节拍,需要脑力权衡的地方少了很多。

API 实现

我在 2026 年 1 月下旬测试了 Z-Image-Turbo 的 ControlNet 接口,每种模式大约发送了 30 次请求。我将输入保持在较小尺寸(768 像素),以保证速度和一致性。

模式参数选择

大多数 API 会暴露如下参数:

  • control_mode:“depth” | “canny” | “pose”
  • control_image:映射图或原始图像(由服务器转换为映射图)
  • prompt / negative_prompt:风格和内容引导
  • seed:用于可重复性

如果你的平台支持自动提取映射图,你可以发送普通图像并设置 control_mode,服务器会自动生成深度/Canny/姿势映射图。

强度设置(从 0.6 开始)

控制强度决定了结构被强制执行的严格程度。我的基准设置:

  • 0.6 用于初步尝试(均衡)
  • 0.4 当我想要更多风格自由度时
  • 0.8 当我需要近乎锁定的精度时(Logo、对透视要求严苛的渲染)

设为 1.0 时,我经常发现结果很僵硬。设为 0.2 时,控制几乎不起作用。0.6 感觉是最佳点。

Python 代码示例

以下是一个最简示例。你的参数名称可能有所不同,请查阅你所用服务商的文档。这个模式在我用过的大多数 REST 封装中都是一致的。

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # 占位符

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "阳光照射的现代客厅,暖色木材,柔软织物,电影感光线",

"negative_prompt": "变形的家具,过曝高光",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" 或 "pose"

"control_strength": 0.6,

}


files = {
# 发送单张参考图:服务器提取所选映射图

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

如果你需要了解底层控制映射的更多细节,AUTOMATIC1111 中的 ControlNet 文档OpenMMLab 的 MMPose(用于姿势)对相关信号有很好的解释。

工作流示例

草图变成品

引发这一切的小烦恼:把一张随手画的铅笔草图变成拿得出手的作品,通常要耗掉一个晚上。使用强度为 0.6 的 Canny 模式,我发送了草图的扫描件,加上简短的风格提示(水墨风、低饱和度配色),让它生成变体。第一批结果有点太干净了,近乎无菌。将强度降至 0.45 后,原始线条的一些抖动感回来了,感觉更真实。节省的时间大约是 30 到 40 分钟,但更大的收获是精神上的——少了很多繁琐的蒙版调整。

摩擦点:草图中的细线在边缘映射中消失了,直到我提高了扫描件的对比度。此后,一致性就很好了。

建筑可视化

我在 2026 年 1 月 22 日用手机拍摄的一张简单客厅布局照片测试了深度模式。目标是:保持沙发和窗户的位置,探索不同材质。将控制强度设为 0.7 时,模型尊重了墙壁位置和窗格结构,同时替换了木材色调和织物纹理。当我推到 0.85 时,材质开始显得过于呆板——太字面了,少了氛围感。大多数室内拍摄我最终稳定在 0.6 或 0.65。

一个小小的意外发现:在提示词中加入镜头提示(“35mm,浅景深”)的效果比我预期的要小,因为深度图才是真正主导者。当我想要不同的镜头感时,我换了一个角度重新拍参考图。不够聪明,但更可靠。

角色概念艺术

姿势模式帮我在五帧图像中迭代一个奔跑姿势。同一个角色,不同的情绪。我用姿势工具快速画了一个火柴人作为控制图像,然后叠加风格提示:街头服饰、逆光、黄昏。手部在多次运行中有所改善,但仍然需要后期修饰。我没有为此挣扎——对于内部工作而言,手部清晰可读就够了;如果是发布用的插画,我会从更干净的一次生成中合成手指,或者直接手绘。

保持稳定的是:身体的弧度和视线方向始终保持一致。这让整套图像感觉像一个序列,而不是五张毫无关联的图。


对我来说,ControlNet 真正的意义在于:当结构是难点时,它减少了对提示词的微观管理。它不会消除判断力,只是将注意力转移到真正值得关注的地方。

可能喜欢这个工具的人:

  • 你手边常备粗糙的参考图,希望它们真正能引导生成结果。
  • 你喜欢随手画,想要得到干净的渲染图,同时不丢失笔触感。
  • 你做故事板,需要姿势在风格切换时保持可读性。

可能不适合的人:

  • 你想要精确还原面部,但不愿意走额外的步骤(你需要一个面部/ID 工作流)。
  • 你不喜欢预处理或调整参考图像。

如果你感到好奇,从小处开始:选一种模式,将强度设为 0.6,用相同的输入跑五次,每次只改变提示词。观察哪些东西变了,哪些东西拒绝移动。那个”拒绝”,就是结构在说话。

我桌上还贴着一张便条:“修正参考图,而不是提示词。” 它让我不再在图像只是如实呈现现实的时候,还去和模型争论。