← 部落格

Z-Image-Turbo ControlNet 指南:深度、Canny 與姿態精確排版

掌握 Z-Image-Turbo ControlNet 的深度、Canny 與姿態模式。學習何時使用各模式、強度設定,以及如何在變換風格的同時保持構圖。

2 min read
Z-Image-Turbo ControlNet 指南:深度、Canny 與姿態精確排版

嘿,朋友們,最近怎麼樣?我是 Dora。第一次嘗試用火柴人姿勢引導圖像時,結果看起來像一個人體模型從二手店逃出來。不算災難性,只是⋯有點奇怪。我希望模型能尊重結構,同時不扼殺風格。因此在 2026 年 1 月,我花了幾個下午在 Z-Image-Turbo​ ​上測試 ControlNet,用真實的小任務來驗證:把餐巾紙草圖轉成乾淨的成品圖、保持建築幾何結構完整,以及在不失去氛圍感的情況下微調角色姿勢。這份指南是我希望第一天就擁有的筆記,樸實、實用,足以幫助你判斷這是否適合你的工作流程。

什麼是 ControlNet?

ControlNet 是一種用結構提示來引導圖像模型的方式,例如邊緣、深度或人體姿勢,同時讓模型以自己的風格進行繪製。你不需要更猛地推提示詞或堆疊負面 token,而是餵給它一張獨立的「控制」圖像,捕捉場景的骨架。模型隨後融合結構與風格,理想情況下少了許多拉扯。

將結構與風格分開

實際上,我是這樣思考的:

  • 提示詞和模型檢查點負責風格(光線、紋理、氛圍)。
  • ControlNet 負責結構(構圖、輪廓、空間關係、姿勢)。

當這兩者各司其職時,我得到的奇怪結果就少得多。如果我試圖用提示詞技巧強行控制結構,通常會付出代價——比例失調,或在後續迭代中出現漂移。

控制模式的運作方式

每種模式從你的輸入中提取不同的圖:

  • 深度模式估計 3D 距離,讓模型感知前景與背景。
  • Canny 模式提取乾淨的邊緣,直接但可靠。
  • 姿勢模式找出人體關鍵點和骨架,非常適合動作或跨幀的一致性。

Z-Image-Turbo(在我 2026 年 1 月的測試中)將這些作為 ControlNet 模式公開,你可以在每次請求時切換。各平台名稱可能不同,但原理相同。如果你想深入了解,ControlNet 論文Stable Diffusion AUTOMATIC1111 ControlNet 文檔是最好的起點。

三種控制模式詳解

深度模式:3D 空間關係

深度模式適用於距離感很重要的場景——建築、室內、風景,任何需要「這個物體在那個物體前面」的情況。在我的測試中,深度模式對紋理和顏色的變化比較寬容,但對相機距離和大型形狀的保護性很強。當我要求在不更改深度圖的情況下呈現不同的鏡頭感(更寬的視野)時,它有所抵抗——我很欣賞這一點。

實戰筆記:如果你的來源圖像有奇怪的透視,深度模式會照單全收。如果參考照片是歪的,結果也會是歪的。我學會了先修正透視。

Canny 模式:邊緣偵測

Canny 是三者中最精確的。它提取邊緣,忽略內部紋理。當我有鉛筆草圖或線框圖,想讓模型嚴格待在線條之內時,我就使用它。它對排版區塊、標誌和產品輪廓的保持效果比深度更好。但它可能比較脆弱:如果強度推得太高,可能會壓平風格或在邊緣周圍產生色帶。

實戰筆記:對比度低的邊緣有時會在 canny 圖中消失。我開始在送出前提高草圖的對比度。小小的改變,少了很多意外。

姿勢模式:人體關鍵點

姿勢模式映射關節和肢體位置。它更關注身體的韻律——手放在哪裡、膝蓋的彎曲程度、肩膀的傾斜——而不是臉部的相似度。當我為故事板繪製角色動作時,姿勢模式讓我在改變服裝、光線和氛圍的同時,保持動作的可讀性。

實戰筆記:手部有所改善,但僅限於姿勢本身的限制之內。如果骨架暗示五根短指頭聚在一起,模型不會憑空創造出優雅的手。姿勢保留的是意圖,它不會自動修正解剖學問題。

各模式的適用時機

深度:建築、風景

  • 當相機位置和比例很重要時使用。
  • 適合:建築物、室內空間、環境中的產品攝影。
  • 如果你只在意清晰的線條,跳過它:深度對精確標誌來說可能太模糊。

我的觀察:深度模式微妙地引導了光線的放置。如果深度圖中某面牆距離更近,模型就會考慮光線如何落在上面。我不需要在提示詞中過度指定光線。

Canny:草圖、精確形狀

  • 當你需要乾淨的輪廓和可靠的對齊時使用。
  • 適合:UI 線框圖、包裝設計、線稿上色。
  • 注意:強度過高時可能導致風格過度受限和陰影平板。

我的觀察:Canny 保持文字框和圖示間距的效果比其他任何模式都好。我仍然不會在 AI 中設定最終排版,但對於版面構思來說,它降低了不少阻力。

姿勢:角色、動作場景

  • 當肢體語言比精確的臉部更重要時使用。
  • 適合:關鍵幀、漫畫、時尚姿勢。
  • 不適合:在沒有臉部參考工作流程的情況下嚴格複製某人的樣貌。

我的觀察:姿勢穩定了多鏡頭序列。我可以在探索不同場景和調色的同時,保持相同的動作節拍。腦力消耗少多了。

API 實作

我在 2026 年 1 月下旬測試了 Z-Image-Turbo 的 ControlNet 端點,每種模式約發送 30 個請求。我保持輸入較小(768 px)以保持快速和一致性。

模式參數選擇

大多數 API 提供類似以下的參數:

  • control_mode: “depth” | “canny” | “pose”
  • control_image: 圖或來源圖像(伺服器會將其轉換為圖)
  • prompt / negative_prompt: 風格和內容引導
  • seed: 用於可重現性

如果你的平台提供自動圖提取,你可以發送普通圖像並設定 control_mode:伺服器將產生深度/canny/姿勢圖。

強度設定(從 0.6 開始)

控制強度決定結構被強制執行的嚴格程度。我的基準:

  • 0.6 用於第一輪(平衡)
  • 0.4 當我想要更多風格自由時
  • 0.8 當我需要近乎鎖定的精度時(標誌、透視關鍵渲染)

設為 1.0 時,我經常看到僵硬感。設為 0.2 時,控制幾乎不存在。0.6 感覺是最佳點。

Python 程式碼範例

以下是一個最簡範例。你的參數名稱可能不同,請查閱你的服務商文檔。這個模式在我使用過的大多數 REST 封裝中是一致的。

import requests


API_URL = "https://api.z-image-turbo.example/v1/images/generate" # 佔位符

API_KEY = "YOUR_API_KEY"


payload = {

"prompt": "sunlit modern living room, warm wood, soft textiles, filmic lighting",

"negative_prompt": "distorted furniture, blown highlights",

"seed": 12345,

"width": 768,

"height": 512,

"control_mode": "depth", # "canny" 或 "pose"

"control_strength": 0.6,

}


files = {
# 發送單一參考圖:伺服器提取所選的圖

"control_image": open("/path/to/reference.jpg", "rb"),

}


headers = {"Authorization": f"Bearer {API_KEY}"}


resp = requests.post(API_URL, data=payload, files=files, headers=headers, timeout=60)

resp.raise_for_status()


with open("out.png", "wb") as f:

f.write(resp.content)

如果你需要更多關於底層控制圖的詳細資訊,AUTOMATIC1111 中的 ControlNet 文檔OpenMMLab 的 MMPose(用於姿勢)對這些信號有很好的說明。

工作流程範例

草圖到成品藝術

讓這一切開始的小煩惱:把一張隨手畫的鉛筆草圖變成像樣的東西,通常要花掉一個晚上。用 canny 強度 0.6,我發送了草圖的掃描圖,加上一個簡短的風格提示詞(水墨風格、低飽和度調色板),讓它生成變體。第一輪結果有點太乾淨,近乎無菌。把強度降到 0.45 後,原始線條的一些抖動回來了,感覺更真實。節省了也許 30-40 分鐘,但更大的收穫是精神上的——少了許多糾結蒙版的時間。

摩擦點:掃描圖中的淡線在邊緣圖中消失了,直到我提高掃描圖的對比度。之後,一致性就保持住了。

建築視覺化

我在 2026 年 1 月 22 日嘗試了對手機拍攝的簡單客廳佈局使用深度模式。目標:保持沙發和窗戶的位置,探索不同材質。控制強度設為 0.7 時,模型尊重了牆壁位置和窗格,同時更換了木材色調和布料紋理。當我推到 0.85 時,材質開始顯得過度固定——太字面化,缺乏氛圍感。大多數室內拍攝我最後選定了 0.6 或 0.65。

一個小驚喜:在提示詞中加入鏡頭提示(「35mm,淺景深」)的效果比我預期的要小,因為深度圖才是主導。當我想要不同的相機感受時,我重新從新角度拍攝了參考圖。不那麼聰明,但更可靠。

角色概念藝術

姿勢模式幫助我在五個鏡頭中迭代一個跑步姿勢。同一個角色,不同的情緒。我用姿勢工具畫了一個快速的火柴人作為控制圖像,然後疊加風格提示詞——街頭服飾、逆光、黃昏。多次生成後手部有所改善,但仍然需要修飾。我沒有強求。對於內部工作,可讀的手就夠了;對於發布的藝術作品,我會從更乾淨的一輪中合成手指,或者手動繪製。

保持住的效果:身體的弧度和視線方向保持一致。這讓整組圖感覺像一個序列,而不是五張毫不相關的圖像。

ControlNet 之所以對我重要:它減少了在結構是難點時對提示詞進行微管理的需求。它不能替代判斷力,只是把注意力移到真正值得關心的部分。

可能喜歡這個的人:

  • 你手邊常備粗略的參考照片,並希望它們真正引導結果。
  • 你的草圖比較隨意,希望得到乾淨的渲染而不失去手勢感。
  • 你做故事板,需要姿勢在風格變化時保持可讀性。

可能不適合的人:

  • 你想要精確的人物相似度而不需要額外步驟(你需要臉部/ID 工作流程)。
  • 你不喜歡預處理或調整參考圖像。

如果你感到好奇,從小事開始:選一種模式,把強度設為 0.6,用相同的輸入跑五次,每次只改變提示詞。觀察什麼在變化,什麼拒絕移動。那個拒絕——那就是你的結構在說話。

我桌上還貼著一張便條:「修正參考圖,不要修正提示詞。」當圖像只是在說實話時,它讓我不再和模型爭論。