Z-Image 參考圖像指南:在保持構圖的同時更改風格
Z-Image-Base 參考圖像完整指南:詳細解說「強度」參數(強引導:0.2 - 0.4 vs. 弱引導:0.6 - 0.8)、風格遷移工作流程、構圖保留技術。
嘿,我是 Dora。你知道嗎?我有時候能生成出一張很棒的圖,但之後卻無法再重現它。同樣的提示詞,需求略有不同,結果風格完全不同。我想要更穩定的掌控感,不需要什麼模板,只要一些引導框架就好。
就是在那時,我花了一週時間深入研究 Z-Image 的參考圖像引導功能。不是因為它有多炫,而是它承諾了一件簡單的事:從種子圖像中保留重要元素,同時讓模型自由探索。以下是我希望一開始就能看到的筆記——它實際使用起來的感受、哪裡會出問題,以及那些發揮最大作用的靜默設定。

什麼是參考圖像引導
參考圖像引導(有時稱為 img2img 條件控制或參考條件控制)讓你可以在文字提示詞之外,同時向模型輸入一張真實圖像。模型會以該輸入圖像作為錨點——根據你調整的參數,可以是風格、構圖、色彩搭配或結構——同時仍然聆聽你的文字指令。
在實際使用中,我把 Z-Image 的參考圖像當作「定調工具」。我不要求它做所有事。我用它來降低我在意的那些方面的隨機性(姿態、色調、版面),其餘的交給提示詞處理。
與純文字生成圖像的差異
我用相同的提示詞測試了兩種方式——一次不加圖像,一次加入參考圖。沒有圖像時,我得到了各種有趣的結果:有的有氛圍,有的很平淡,有幾張根本無法使用。當我加入參考圖像(一張我用手機拍的簡單桌面場景)後,模型保留了桌面的佈局、柔和的日光感,甚至連木紋質感都在,同時還把我要求替換的物件換掉了。這不像是「被鎖住」,更像是被溫和地約束。
純文字適合用來探索。但當你需要可重複性(廣告活動變體、產品角度、投影片視覺效果)時,參考圖像能削減隨機性。我在這方面減輕了最多的心智負擔:重跑次數更少,提示詞的折騰也更少。
參考圖像的影響範圍
參考圖像可以影響不同的層面:
- 整體構圖:相機角度、主體位置、負空間。
- 風格線索:光線、紋理密度、色彩溫度。
- 局部結構:輪廓、姿態、產品外形。
讓我驚訝的是:即使我在文字中沒有描述那些細節,參考圖像的影響也會顯現出來。如果你的參考圖有強烈的頂光,你的輸出結果可能也會繼承這個特點,除非你在提示詞中加以抵消(例如「柔和側光,柔化高光」)。
「強度」參數詳解
不同系統對它的命名各異(strength、fidelity、image 的 guidance scale 等)。含義相似:數值越低,越貼近參考圖;數值越高,束縛越鬆。如果你同時在調整文字影響力,這篇 Z-Image CFG 最佳設定 的分析與強度調整搭配效果很好。

以下是我在約 60 次生成中觀察到的各範圍表現。你的結果可能有所不同,模型之間有差異,但曲線的形狀趨勢通常是一致的。
0.2–0.4:強參考引導(維持原始圖像)
在 0.2–0.4 範圍內,Z-Image 的參考圖像就像濕水泥一樣。模型會保留構圖、光線,甚至細微的紋理。如果我用文字指定「把筆記本換成平板」,它通常會執行,但平板會出現在筆記本原來的確切位置。適合用於:
- 產品換色
- 小幅道具替換
- 標籤或包裝更新
摩擦點:如果文字要求進行參考圖無法支持的結構性改動,就會出現瑕疵。例如:在 0.3 的強度下,試圖在相同姿態中把合蓋的筆電換成開蓋的,結果得到了彎曲的幾何形狀。遇到這種情況,我要麼把強度稍微調高,要麼換一張姿態相容的參考圖。
0.4–0.6:平衡區間
這是我日常使用最多的範圍。在 0.5 時,模型保留場景的骨架,但重寫細節時不那麼費力。構圖保持住,物件可以稍微移動,光線可以變柔或變暖。這種一致性足以讓一組相關圖像看起來是同系列,而不是彼此的複製品。
有個方法很有幫助:在提示詞中明確指出要保留什麼。加上「保持桌面角度和日光;把馬克杯換成玻璃杯;加入植物,淺景深」這樣的提示詞後,效果更乾淨。中等強度 + 明確保留項目的組合,比模糊的形容詞更有效。
0.6–0.8:弱引導(更有創意)
在這個範圍,參考圖變成了建議,而非規則。模型可以自由改變相機角度、增刪元素,有時甚至更新風格。我用 0.7 來做情緒板擴展:相同氛圍,但換了新的空間。大約 30–40% 的輸出結果仍然呼應了原圖的色調。
注意事項:這個範圍更容易誤讀小型產品特徵(接口、縫合圖案),除非你在文字中加以強調或提供更高解析度的參考圖。我曾在袋子上發現奇怪的縫線,也在設備上見過錯誤的倒角。可以修正,但值得留意。
0.8–1.0:幾乎忽略參考圖像
超過約 0.8,我把參考圖當作上次會議留下的一個印象。它可能認出顏色或大致輪廓,但也就這樣了。有時候這就夠了——如果我只是想要「保持溫暖的木質感」,0.85 能在開放新角度的同時做到這一點。
但在正式製作工作中,我不會在這裡待太久。這更接近純文字生成,只是多了一點微小的提示。當我到達 0.9 時,通常是因為我一開始就選錯了參考圖,只想提取其中的色調。通常還是選一張更好的參考圖、把強度調回 0.5 更有效。
API 實作
我用簡單的 requests 設定和一個小型封裝器測試了 API 呼叫。我偏好從原始 HTTP 開始,因為這樣能清楚看出哪些是必要的,哪些是可選的雜訊。
如果你剛開始接觸參考條件控制,建議掃一遍提供者文件,了解他們如何定義 strength 以及使用什麼預設值。關於類似工作流程的背景知識,我發現 Hugging Face Diffusers 的 image-to-image 和 ControlNet 指南很有幫助。名稱不同,概念是一樣的。

傳遞「image」參數的方式
在我嘗試過的大多數 API 中,參考圖像可以用以下幾種方式傳遞:
- 公開 URL(原型開發最快,注意壓縮問題)
- Base64 編碼的 data URI(可靠,稍微囉嗦)
- Multipart 上傳(適合本地文件,讓你掌控 EXIF/品質)
我通常傳送 PNG 或高品質 JPEG,長邊約 1024 像素。太小會讓細節模糊;太大則多付頻寬費用,效果卻沒有更好。如果 A
PI 支援多張參考圖,先從一張開始。一次疊加太多會讓信號相互抵消。
Python 程式碼範例
以下是我使用的最精簡模式。刻意保持簡單,方便你自行調整。把端點和金鑰替換成你的提供者的設定。
暂时无法在飞书文档外展示此内容
實際應用場景
風格轉換
我用一張乾淨的產品照作為參考,並要求「以柔和膠片風格拍攝的工作室人像,光暈效果,光線自然過渡」。在 0.45 強度下,模型保留了產品的輪廓,並將光線變得更有電影感,沒有扭曲邊緣。當我把強度降到 0.25 時,它緊貼原本的工作室強光——不錯,但風格化程度不夠。如果你想要更大膽的風格,往 0.6 靠,並加入 2–3 個具體的風格關鍵詞。超過這個數量就會變成雜訊。
產品圖像變體
為了刷新一個落地頁,我需要八個角度的圖,它們應該像兄弟姊妹,而不是複製品。我拍了一個整齊的場景,並將它用作所有提示詞的 Z-Image 參考圖像。強度設為 0.5,讓所有圖片的顆粒感和白平衡保持一致,同時允許我旋轉物件、加入手部,或替換背景道具。每張圖節省的時間不多(大概兩分鐘),但免去了「為什麼這張看起來差那麼多?」的心理負擔,這才是真正的解脫。
概念示意圖優化
示意圖是參考引導悄悄發光的地方。我在 Figma 裡勾勒了一個版面——方塊、箭頭、鬆散的標籤——匯出 PNG 後作為參考圖使用。在 0.4 強度下,我可以描述風格(「極簡、柔和灰色線條、淡色強調色」),模型就能保留結構。這省去了一輪反覆修改。如果某個標籤位置不對,我直接調整原始的 Figma 文件重新跑,而不是費力地調整提示詞。
最佳實踐
- 從乾淨的參考圖開始。 校正水平,去除雜亂,規範化曝光。模型複製的東西比你想像的多。
- 根據任務選擇強度。 0.5 是安全的第一站:往下調提高保真度,往上調鼓勵探索。
- 告訴它要保留什麼。 簡短明確的保留項目(「保持角度和色調」)能減少偏移。
- 根據需求匹配解析度。 長邊約 1024 像素是大多數 API 的實用預設值。
- 小步迭代。 每次只改一件事(提示詞調整或強度),這樣才能看清因果關係。
- 調整時設定種子值。 完成調整後再取消,以增加多樣性。
- 注意累積偏差。 如果你一直把輸出結果當作下一次的參考圖,風格可能會逐漸僵化。定期回到原始圖或中性基準圖。
- 對於團隊協作,保存這三樣東西: 參考圖像、提示詞文字、以及數值強度。未來的你會感謝現在的你。
如果你被各種承諾魔法的工具包圍,這是其中比較低調的那種。它不會替你做審美決策,只是穩住你的手。我在某個午後的一次跑圖中注意到了這一點:同樣的桌面,同樣的光線,猶豫卻少了許多。不是什麼大時刻,但它留了下來。



