Z-Image-Turbo ControlNet 指南：深度、Canny 與姿態精確排版

嘿，朋友們，最近怎麼樣？我是 Dora。第一次嘗試用火柴人姿勢引導圖像時，結果看起來像一個人體模型從二手店逃出來。不算災難性，只是⋯有點奇怪。我希望模型能尊重結構，同時不扼殺風格。因此在 2026 年 1 月，我花了幾個下午在 Z-Image-Turbo 上測試 ControlNet，用真實的小任務來驗證：把餐巾紙草圖轉成乾淨的成品圖、保持建築幾何結構完整，以及在不失去氛圍感的情況下微調角色姿勢。這份指南是我希望第一天就擁有的筆記，樸實、實用，足以幫助你判斷這是否適合你的工作流程。

什麼是 ControlNet？

ControlNet 是一種用結構提示來引導圖像模型的方式，例如邊緣、深度或人體姿勢，同時讓模型以自己的風格進行繪製。你不需要更猛地推提示詞或堆疊負面 token，而是餵給它一張獨立的「控制」圖像，捕捉場景的骨架。模型隨後融合結構與風格，理想情況下少了許多拉扯。

將結構與風格分開

實際上，我是這樣思考的：

提示詞和模型檢查點負責風格（光線、紋理、氛圍）。
ControlNet 負責結構（構圖、輪廓、空間關係、姿勢）。

當這兩者各司其職時，我得到的奇怪結果就少得多。如果我試圖用提示詞技巧強行控制結構，通常會付出代價——比例失調，或在後續迭代中出現漂移。

控制模式的運作方式

每種模式從你的輸入中提取不同的圖：

深度模式估計 3D 距離，讓模型感知前景與背景。
Canny 模式提取乾淨的邊緣，直接但可靠。
姿勢模式找出人體關鍵點和骨架，非常適合動作或跨幀的一致性。

Z-Image-Turbo（在我 2026 年 1 月的測試中）將這些作為 ControlNet 模式公開，你可以在每次請求時切換。各平台名稱可能不同，但原理相同。如果你想深入了解，ControlNet 論文和 Stable Diffusion AUTOMATIC1111 ControlNet 文檔是最好的起點。

三種控制模式詳解

深度模式：3D 空間關係

深度模式適用於距離感很重要的場景——建築、室內、風景，任何需要「這個物體在那個物體前面」的情況。在我的測試中，深度模式對紋理和顏色的變化比較寬容，但對相機距離和大型形狀的保護性很強。當我要求在不更改深度圖的情況下呈現不同的鏡頭感（更寬的視野）時，它有所抵抗——我很欣賞這一點。

實戰筆記：如果你的來源圖像有奇怪的透視，深度模式會照單全收。如果參考照片是歪的，結果也會是歪的。我學會了先修正透視。

Canny 模式：邊緣偵測

Canny 是三者中最精確的。它提取邊緣，忽略內部紋理。當我有鉛筆草圖或線框圖，想讓模型嚴格待在線條之內時，我就使用它。它對排版區塊、標誌和產品輪廓的保持效果比深度更好。但它可能比較脆弱：如果強度推得太高，可能會壓平風格或在邊緣周圍產生色帶。

實戰筆記：對比度低的邊緣有時會在 canny 圖中消失。我開始在送出前提高草圖的對比度。小小的改變，少了很多意外。

姿勢模式：人體關鍵點

姿勢模式映射關節和肢體位置。它更關注身體的韻律——手放在哪裡、膝蓋的彎曲程度、肩膀的傾斜——而不是臉部的相似度。當我為故事板繪製角色動作時，姿勢模式讓我在改變服裝、光線和氛圍的同時，保持動作的可讀性。

實戰筆記：手部有所改善，但僅限於姿勢本身的限制之內。如果骨架暗示五根短指頭聚在一起，模型不會憑空創造出優雅的手。姿勢保留的是意圖，它不會自動修正解剖學問題。

各模式的適用時機

深度：建築、風景

當相機位置和比例很重要時使用。
適合：建築物、室內空間、環境中的產品攝影。
如果你只在意清晰的線條，跳過它：深度對精確標誌來說可能太模糊。

我的觀察：深度模式微妙地引導了光線的放置。如果深度圖中某面牆距離更近，模型就會考慮光線如何落在上面。我不需要在提示詞中過度指定光線。

Canny：草圖、精確形狀

當你需要乾淨的輪廓和可靠的對齊時使用。
適合：UI 線框圖、包裝設計、線稿上色。
注意：強度過高時可能導致風格過度受限和陰影平板。

我的觀察：Canny 保持文字框和圖示間距的效果比其他任何模式都好。我仍然不會在 AI 中設定最終排版，但對於版面構思來說，它降低了不少阻力。

姿勢：角色、動作場景

當肢體語言比精確的臉部更重要時使用。
適合：關鍵幀、漫畫、時尚姿勢。
不適合：在沒有臉部參考工作流程的情況下嚴格複製某人的樣貌。

我的觀察：姿勢穩定了多鏡頭序列。我可以在探索不同場景和調色的同時，保持相同的動作節拍。腦力消耗少多了。

API 實作

我在 2026 年 1 月下旬測試了 Z-Image-Turbo 的 ControlNet 端點，每種模式約發送 30 個請求。我保持輸入較小（768 px）以保持快速和一致性。

模式參數選擇

大多數 API 提供類似以下的參數：

control_mode: “depth” | “canny” | “pose”
control_image: 圖或來源圖像（伺服器會將其轉換為圖）
prompt / negative_prompt: 風格和內容引導
seed: 用於可重現性

如果你的平台提供自動圖提取，你可以發送普通圖像並設定 control_mode：伺服器將產生深度/canny/姿勢圖。

強度設定（從 0.6 開始）

控制強度決定結構被強制執行的嚴格程度。我的基準：

0.6 用於第一輪（平衡）
0.4 當我想要更多風格自由時
0.8 當我需要近乎鎖定的精度時（標誌、透視關鍵渲染）

設為 1.0 時，我經常看到僵硬感。設為 0.2 時，控制幾乎不存在。0.6 感覺是最佳點。

Python 程式碼範例

以下是一個最簡範例。你的參數名稱可能不同，請查閱你的服務商文檔。這個模式在我使用過的大多數 REST 封裝中是一致的。

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # 佔位符

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sunlit modern living room, warm wood, soft textiles, filmic lighting",

"negative_prompt": "distorted furniture, blown highlights",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" 或 "pose"

"control_strength": 0.6,

}


files = {
# 發送單一參考圖：伺服器提取所選的圖

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

如果你需要更多關於底層控制圖的詳細資訊，AUTOMATIC1111 中的 ControlNet 文檔和 OpenMMLab 的 MMPose（用於姿勢）對這些信號有很好的說明。

工作流程範例

草圖到成品藝術

讓這一切開始的小煩惱：把一張隨手畫的鉛筆草圖變成像樣的東西，通常要花掉一個晚上。用 canny 強度 0.6，我發送了草圖的掃描圖，加上一個簡短的風格提示詞（水墨風格、低飽和度調色板），讓它生成變體。第一輪結果有點太乾淨，近乎無菌。把強度降到 0.45 後，原始線條的一些抖動回來了，感覺更真實。節省了也許 30-40 分鐘，但更大的收穫是精神上的——少了許多糾結蒙版的時間。

摩擦點：掃描圖中的淡線在邊緣圖中消失了，直到我提高掃描圖的對比度。之後，一致性就保持住了。

建築視覺化

我在 2026 年 1 月 22 日嘗試了對手機拍攝的簡單客廳佈局使用深度模式。目標：保持沙發和窗戶的位置，探索不同材質。控制強度設為 0.7 時，模型尊重了牆壁位置和窗格，同時更換了木材色調和布料紋理。當我推到 0.85 時，材質開始顯得過度固定——太字面化，缺乏氛圍感。大多數室內拍攝我最後選定了 0.6 或 0.65。

一個小驚喜：在提示詞中加入鏡頭提示（「35mm，淺景深」）的效果比我預期的要小，因為深度圖才是主導。當我想要不同的相機感受時，我重新從新角度拍攝了參考圖。不那麼聰明，但更可靠。

角色概念藝術

姿勢模式幫助我在五個鏡頭中迭代一個跑步姿勢。同一個角色，不同的情緒。我用姿勢工具畫了一個快速的火柴人作為控制圖像，然後疊加風格提示詞——街頭服飾、逆光、黃昏。多次生成後手部有所改善，但仍然需要修飾。我沒有強求。對於內部工作，可讀的手就夠了；對於發布的藝術作品，我會從更乾淨的一輪中合成手指，或者手動繪製。

保持住的效果：身體的弧度和視線方向保持一致。這讓整組圖感覺像一個序列，而不是五張毫不相關的圖像。

ControlNet 之所以對我重要：它減少了在結構是難點時對提示詞進行微管理的需求。它不能替代判斷力，只是把注意力移到真正值得關心的部分。

可能喜歡這個的人：

你手邊常備粗略的參考照片，並希望它們真正引導結果。
你的草圖比較隨意，希望得到乾淨的渲染而不失去手勢感。
你做故事板，需要姿勢在風格變化時保持可讀性。

可能不適合的人：

你想要精確的人物相似度而不需要額外步驟（你需要臉部/ID 工作流程）。
你不喜歡預處理或調整參考圖像。

如果你感到好奇，從小事開始：選一種模式，把強度設為 0.6，用相同的輸入跑五次，每次只改變提示詞。觀察什麼在變化，什麼拒絕移動。那個拒絕——那就是你的結構在說話。

我桌上還貼著一張便條：「修正參考圖，不要修正提示詞。」當圖像只是在說實話時，它讓我不再和模型爭論。