Z-Image 參考圖像指南：在保持構圖的同時更改風格

嘿，我是 Dora。你知道嗎？我有時候能生成出一張很棒的圖，但之後卻無法再重現它。同樣的提示詞，需求略有不同，結果風格完全不同。我想要更穩定的掌控感，不需要什麼模板，只要一些引導框架就好。

就是在那時，我花了一週時間深入研究 Z-Image 的參考圖像引導功能。不是因為它有多炫，而是它承諾了一件簡單的事：從種子圖像中保留重要元素，同時讓模型自由探索。以下是我希望一開始就能看到的筆記——它實際使用起來的感受、哪裡會出問題，以及那些發揮最大作用的靜默設定。

什麼是參考圖像引導

參考圖像引導（有時稱為 img2img 條件控制或參考條件控制）讓你可以在文字提示詞之外，同時向模型輸入一張真實圖像。模型會以該輸入圖像作為錨點——根據你調整的參數，可以是風格、構圖、色彩搭配或結構——同時仍然聆聽你的文字指令。

在實際使用中，我把 Z-Image 的參考圖像當作「定調工具」。我不要求它做所有事。我用它來降低我在意的那些方面的隨機性（姿態、色調、版面），其餘的交給提示詞處理。

與純文字生成圖像的差異

我用相同的提示詞測試了兩種方式——一次不加圖像，一次加入參考圖。沒有圖像時，我得到了各種有趣的結果：有的有氛圍，有的很平淡，有幾張根本無法使用。當我加入參考圖像（一張我用手機拍的簡單桌面場景）後，模型保留了桌面的佈局、柔和的日光感，甚至連木紋質感都在，同時還把我要求替換的物件換掉了。這不像是「被鎖住」，更像是被溫和地約束。

純文字適合用來探索。但當你需要可重複性（廣告活動變體、產品角度、投影片視覺效果）時，參考圖像能削減隨機性。我在這方面減輕了最多的心智負擔：重跑次數更少，提示詞的折騰也更少。

參考圖像的影響範圍

參考圖像可以影響不同的層面：

整體構圖：相機角度、主體位置、負空間。
風格線索：光線、紋理密度、色彩溫度。
局部結構：輪廓、姿態、產品外形。

讓我驚訝的是：即使我在文字中沒有描述那些細節，參考圖像的影響也會顯現出來。如果你的參考圖有強烈的頂光，你的輸出結果可能也會繼承這個特點，除非你在提示詞中加以抵消（例如「柔和側光，柔化高光」）。

「強度」參數詳解

不同系統對它的命名各異（strength、fidelity、image 的 guidance scale 等）。含義相似：數值越低，越貼近參考圖；數值越高，束縛越鬆。如果你同時在調整文字影響力，這篇 Z-Image CFG 最佳設定的分析與強度調整搭配效果很好。

以下是我在約 60 次生成中觀察到的各範圍表現。你的結果可能有所不同，模型之間有差異，但曲線的形狀趨勢通常是一致的。

0.2–0.4：強參考引導（維持原始圖像）

在 0.2–0.4 範圍內，Z-Image 的參考圖像就像濕水泥一樣。模型會保留構圖、光線，甚至細微的紋理。如果我用文字指定「把筆記本換成平板」，它通常會執行，但平板會出現在筆記本原來的確切位置。適合用於：

產品換色
小幅道具替換
標籤或包裝更新

摩擦點：如果文字要求進行參考圖無法支持的結構性改動，就會出現瑕疵。例如：在 0.3 的強度下，試圖在相同姿態中把合蓋的筆電換成開蓋的，結果得到了彎曲的幾何形狀。遇到這種情況，我要麼把強度稍微調高，要麼換一張姿態相容的參考圖。

0.4–0.6：平衡區間

這是我日常使用最多的範圍。在 0.5 時，模型保留場景的骨架，但重寫細節時不那麼費力。構圖保持住，物件可以稍微移動，光線可以變柔或變暖。這種一致性足以讓一組相關圖像看起來是同系列，而不是彼此的複製品。

有個方法很有幫助：在提示詞中明確指出要保留什麼。加上「保持桌面角度和日光；把馬克杯換成玻璃杯；加入植物，淺景深」這樣的提示詞後，效果更乾淨。中等強度 + 明確保留項目的組合，比模糊的形容詞更有效。

0.6–0.8：弱引導（更有創意）

在這個範圍，參考圖變成了建議，而非規則。模型可以自由改變相機角度、增刪元素，有時甚至更新風格。我用 0.7 來做情緒板擴展：相同氛圍，但換了新的空間。大約 30–40% 的輸出結果仍然呼應了原圖的色調。

注意事項：這個範圍更容易誤讀小型產品特徵（接口、縫合圖案），除非你在文字中加以強調或提供更高解析度的參考圖。我曾在袋子上發現奇怪的縫線，也在設備上見過錯誤的倒角。可以修正，但值得留意。

0.8–1.0：幾乎忽略參考圖像

超過約 0.8，我把參考圖當作上次會議留下的一個印象。它可能認出顏色或大致輪廓，但也就這樣了。有時候這就夠了——如果我只是想要「保持溫暖的木質感」，0.85 能在開放新角度的同時做到這一點。

但在正式製作工作中，我不會在這裡待太久。這更接近純文字生成，只是多了一點微小的提示。當我到達 0.9 時，通常是因為我一開始就選錯了參考圖，只想提取其中的色調。通常還是選一張更好的參考圖、把強度調回 0.5 更有效。

API 實作

我用簡單的 requests 設定和一個小型封裝器測試了 API 呼叫。我偏好從原始 HTTP 開始，因為這樣能清楚看出哪些是必要的，哪些是可選的雜訊。

如果你剛開始接觸參考條件控制，建議掃一遍提供者文件，了解他們如何定義 strength 以及使用什麼預設值。關於類似工作流程的背景知識，我發現 Hugging Face Diffusers 的 image-to-image 和 ControlNet 指南很有幫助。名稱不同，概念是一樣的。

傳遞「image」參數的方式

在我嘗試過的大多數 API 中，參考圖像可以用以下幾種方式傳遞：

公開 URL（原型開發最快，注意壓縮問題）
Base64 編碼的 data URI（可靠，稍微囉嗦）
Multipart 上傳（適合本地文件，讓你掌控 EXIF/品質）

我通常傳送 PNG 或高品質 JPEG，長邊約 1024 像素。太小會讓細節模糊；太大則多付頻寬費用，效果卻沒有更好。如果 API 支援多張參考圖，先從一張開始。一次疊加太多會讓信號相互抵消。

Python 程式碼範例

以下是我使用的最精簡模式。刻意保持簡單，方便你自行調整。把端點和金鑰替換成你的提供者的設定。

暂时无法在飞书文档外展示此内容

實際應用場景

風格轉換

我用一張乾淨的產品照作為參考，並要求「以柔和膠片風格拍攝的工作室人像，光暈效果，光線自然過渡」。在 0.45 強度下，模型保留了產品的輪廓，並將光線變得更有電影感，沒有扭曲邊緣。當我把強度降到 0.25 時，它緊貼原本的工作室強光——不錯，但風格化程度不夠。如果你想要更大膽的風格，往 0.6 靠，並加入 2–3 個具體的風格關鍵詞。超過這個數量就會變成雜訊。

產品圖像變體

為了刷新一個落地頁，我需要八個角度的圖，它們應該像兄弟姊妹，而不是複製品。我拍了一個整齊的場景，並將它用作所有提示詞的 Z-Image 參考圖像。強度設為 0.5，讓所有圖片的顆粒感和白平衡保持一致，同時允許我旋轉物件、加入手部，或替換背景道具。每張圖節省的時間不多（大概兩分鐘），但免去了「為什麼這張看起來差那麼多？」的心理負擔，這才是真正的解脫。

概念示意圖優化

示意圖是參考引導悄悄發光的地方。我在 Figma 裡勾勒了一個版面——方塊、箭頭、鬆散的標籤——匯出 PNG 後作為參考圖使用。在 0.4 強度下，我可以描述風格（「極簡、柔和灰色線條、淡色強調色」），模型就能保留結構。這省去了一輪反覆修改。如果某個標籤位置不對，我直接調整原始的 Figma 文件重新跑，而不是費力地調整提示詞。

最佳實踐

從乾淨的參考圖開始。 校正水平，去除雜亂，規範化曝光。模型複製的東西比你想像的多。
根據任務選擇強度。 0.5 是安全的第一站：往下調提高保真度，往上調鼓勵探索。
告訴它要保留什麼。 簡短明確的保留項目（「保持角度和色調」）能減少偏移。
根據需求匹配解析度。 長邊約 1024 像素是大多數 API 的實用預設值。
小步迭代。 每次只改一件事（提示詞調整或強度），這樣才能看清因果關係。
調整時設定種子值。 完成調整後再取消，以增加多樣性。
注意累積偏差。 如果你一直把輸出結果當作下一次的參考圖，風格可能會逐漸僵化。定期回到原始圖或中性基準圖。
對於團隊協作，保存這三樣東西： 參考圖像、提示詞文字、以及數值強度。未來的你會感謝現在的你。

如果你被各種承諾魔法的工具包圍，這是其中比較低調的那種。它不會替你做審美決策，只是穩住你的手。我在某個午後的一次跑圖中注意到了這一點：同樣的桌面，同樣的光線，猶豫卻少了許多。不是什麼大時刻，但它留了下來。

什麼是參考圖像引導

與純文字生成圖像的差異

參考圖像的影響範圍

「強度」參數詳解

0.2–0.4：強參考引導（維持原始圖像）

0.4–0.6：平衡區間

0.6–0.8：弱引導（更有創意）

0.8–1.0：幾乎忽略參考圖像

API 實作

傳遞「image」參數的方式

Python 程式碼範例

實際應用場景

風格轉換

產品圖像變體

概念示意圖優化

最佳實踐

相關文章

Claude Code 原始碼洩露：BUDDY、KAIROS 及所有隱藏功能完整解析

什麼是Claude Mythos？洩露資訊、Capybara等級及Anthropic的官方確認

什麼是 Claw Code？Claude Code 重寫解析

什麼是Qwen3.5-Omni：功能、版本與API存取

PixVerse V6 Extend 現已登陸WaveSpeedAI

PixVerse V6 Image-to-Video現已登陸WaveSpeedAI