在WaveSpeed上訓練Z-Image Turbo LoRA：數據集、步驟和常見錯誤

嘿，夥計。我是朵拉。

上週，我想要一套小而風格一致的頁首圖像。庫存圖片感覺不對勁，手動調整提示詞持續漂移。所以我嘗試了一直在迴避的事情：在 WaveSpeed 上的 Z-Image Turbo 上進行快速 LoRA 訓練。我預期會遇到繁瑣的設定和大量的試錯。結果比我想的要簡單得多，不是輕而易舉，只是井井有條。以下是我在 2026 年 1 月的兩個夜晚內在 WaveSpeed 上訓練 Z-Image Turbo LoRA 的過程、什麼有效、什麼無效，以及我會重複使用的設定。這不是一份榨取每一分收益的指南。它是一個穩定的基線，讓我的思路清晰，結果可預測。

數據集規則

我蒐集了什麼

我保持簡單：45 張圖像用於定義的視覺風格（柔和、乾淨的線條、溫和的紙質紋理）。我在 30–120 張圖像之間都有不錯的結果。少於 20 張傾向於過度擬合：超過 150 張你訓練的更像是微調而不是 LoRA，Z-Image Turbo 的速度優勢開始平坦化。

多樣性勝於數量

我將數據集分為：

70% 「核心外觀」圖像（我想教授的風格），
30% 上下文多樣性（不同的物體/背景，讓 LoRA 不會將風格綁定到一個場景）。

角度、光線和寬高比各不相同。我避免了近似重複（沒有同一物體在 5° 偏移下的三張照片）。

尺寸和格式

解析度：短邊 768 像素。Turbo 模型可以處理 1024，但 768 使訓練更輕便，並在我的測試中減少了偽影。
格式：PNG 或高品質 JPEG。我去除了元數據。大型嵌入式設定檔有時會稍微混淆顏色。
裁剪：我裁剪以保持主體突出，但並非每次都居中。對稱性使模型變得懶惰。

字幕撰寫技巧

我嘗試了兩輪：先自動標籤，然後輕微編輯。自動字幕讓我達到了 70%。最後 30% 很重要。

保持字幕簡短且一致

1–2 句話或緊湊的標籤列表。
提及風格令牌（更多關於令牌的內容見下文）加上一個類別詞。
不要描述所有內容。只命名穩定且重要的內容。

我使用的例子：

「soka-style，陶瓷馬克杯在辦公桌上的極簡風格插圖，柔和的紙質紋理，柔和的調色板。」
「soka-style，粘土罐中簡單的植物，側面光線，乾淨的負空間。」

類別詞有幫助

如果你在教授風格，使用類別詞（插圖、相片、肖像、產品照）。如果你在教授物體/角色，使用它是什麼（馬克杯、背包、計劃本）。這有助於 LoRA 泛化。沒有類別詞，我早期的嘗試使 LoRA 緊貼佈局。

不要用形容詞過度擬合

我在第二輪之後刪除了重複的形容詞。如果每個字幕都說「溫暖、舒適、柔軟」，模型即使你不想要也會鎖定那種氛圍。我為語氣保留了一個形容詞。

負面信號

我在少數確實重要的字幕中添加了輕微的負面詞：「沒有刺眼的陰影。」不是到處都有，只是在原始圖像中對比度錯誤的地方。太多的負面詞使其在推理期間變得固執。

小註：我嘗試了五張圖像的無字幕測試。結果變得稍微有點嘈雜。不是很糟，但如果一致性很重要，我不會跳過字幕。

訓練參數基線

這些是在 WaveSpeed 上使用 Z-Image Turbo 給我穩定結果的設定。我運行了三個短訓練（在我工作區中的默認 GPU 上各約 18–22 分鐘）。你的時間可能不同。

我重複使用的核心設定

基礎：Z-Image Turbo（截至 2026 年 1 月的最新版本）
LoRA 秩（dim）：16 用於細微風格：32 當風格需要更多衝擊力時。我選擇了 16。
Alpha：匹配秩（16）或一半（8）。我配對了。
學習率：1e-4 開始。如果風格不粘著，則為 2e-4。1e-3 在我的測試中過度烘烤得很快。Hugging Face 的 LoRA 訓練文檔建議對大多數穩定擴散模型從 1e-4 開始。
批量大小：2–4。我使用 4 來保持步驟合理。
時期/步驟：目標是 1–2 次完整遍歷數據。對於 45 張圖像 × 10 重複 ÷ 批次 4 ≈ 每個時期 112 步。我訓練了 2 個時期（≈224 步）。超過 3 個時期開始記住背景。
調度器：Cosine 或帶有預熱的恆定。我使用了 cosine，預熱 5%。
精度：可用時為 bfloat16。這裡很好。

正則化圖像

使用風格 LoRA，我並不總是添加正則化。對於物體或角色，我添加 50–100 張類別圖像（普通「馬克杯」、「肖像」）以保持解剖和形狀誠實。在 Turbo 上，這明顯減少了植物照片中奇怪的類手葉。

檢查點和儲存

我啟用了每 50–80 步儲存一次。它讓我回滾到最甜蜜的地方，我的集合大約在第 180 步。稍後的步驟看起來更乾淨，但在提示詞中靈活性較低。

如果你想進行快速檢查：先進行 60–90 步的運行。它不會完美，但它會告訴你你的數據集是否在教授正確的課程。

觸發詞

我使用了一個獨特的令牌來錨定風格：「soka-style」。你可以使用「kavli-ark」或「mivva」之類的東西。簡短、創造的，不太可能與真實詞語衝突。

我如何撰寫字幕

在字幕中使用令牌一次：「soka-style，極簡風格插圖…」
添加一個類別詞：插圖、相片、渲染，任何匹配的。
在整個數據集中保持一致。

我如何提示

正面：「陶瓷馬克杯在木製辦公桌上的產品照片，soka-style，柔和的紙質紋理，柔和的顏色」
負面：「刺眼的陰影、重粒度、文字浮水印、色差」

何時避免觸發詞

如果你訓練一個非常具體的物體（品牌瓶子、吉祥物），在字幕中使用令牌 + 類別詞（「mivva-bottle」），但你不必在每個推理提示中強制使用令牌。在我的測試中，Turbo 尊重訓練分佈：有時只是類別詞就夠了。令牌在場景變得複雜時有幫助。

一個奇怪之處：堆疊兩個風格令牌混淆了模型（「soka-style，nova-style」）。我得到了模糊的混合。一次一個令牌更乾淨。

驗證圖像

驗證使我避免了追逐幽靈。

固定種子和小網格

我設定了三個我關心的提示詞，並在所有運行中保持它們固定：

「辦公桌上的陶瓷馬克杯，soka-style，柔和的紙質紋理，柔和的顏色」
「窗邊的有葉子的植物，soka-style，側光，乾淨的背景」
「計劃本和筆，soka-style，俯視圖，溫和的陰影」

種子：固定（我使用了 12345）。每個提示詞一個種子。
步驟：Turbo 20–28。超過 30 開始過度銳化。
CFG：3.5–6。我喜歡 4.5 的平衡。
採樣器：DPM++ 2M Karras 或一個不錯的 Euler 變體。兩者都表現良好。
尺寸：768×768，與訓練裁剪相同。

我也在沒有令牌的情況下渲染了相同的集合，以查看風格是否太佔主導地位。在我的第二次運行中，馬克杯在沒有令牌的情況下仍然看起來「紙質」，這暗示我已經將風格推得太硬了。將 LoRA 權重調低到 0.6 修復了它。

如果可以的話，在訓練時保持一個輕量級的驗證面板打開。觀察相同的三個提示詞更新比眼球隨機樣本要冷靜得多。

修復

以下是出錯的地方以及如何修復它。

過度擬合背景

症狀：相同的紙質紋理出現在不相關的場景中。
修復：減少每張圖像的重複次數（從 10 到 6），添加 6–10 個中性背景，在推理時降低 LoRA 權重（0.6–0.75）。

顏色漂移到米色

症狀：一切都變暖，像一個晚間午後濾鏡。
修復：刪除字幕中重複的「溫暖/柔軟/舒適」形容詞：添加 6 張較冷色調的圖像：在數據集中設定白平衡多樣性：將「過度溫暖的色調」添加到負面。

脆弱的提示詞

症狀：小的提示詞變化導致組成崩潰。
修復：增加數據集在物體類型和佈局中的多樣性：用稍低的 LR 訓練（1e-4 而不是 2e-4）：如果風格複雜，嘗試秩 32。

發佈和重複使用

訓練這個 LoRA 之所以容易控制，主要是因為我們建造 WaveSpeed 以消除過程中惱人的部分。我不必編寫腳本或看管 GPU，而是可以上傳小數據集、運行短 Turbo LoRA 訓練、比較檢查點，並在不打破我的流程的情況下跨項目重複使用該模型。

如果你厭倦了風格漂移、過度擬合或忘記「最好的運行」。
→ 在 WaveSpeed 上訓練 Z-Image Turbo LoRA 當第三次運行感覺穩定時，我在 WaveSpeed 內發佈了 LoRA，附帶一個簡單的模型卡：

用途：細微的紙質紋理風格、柔和的調色板、乾淨的形狀。
不用於：逼真的肖像、高光澤產品、大量文字疊加。
有效的設定：權重 0.6–0.85、CFG ~4.5、20–26 步、768 輸出。
兩個好的提示詞和一個警告。
版本說明：訓練於 2026 年 1 月，秩 16，LR 1e-4，~224 步。

我保持許可證簡單並添加了三個驗證圖像。未來的我會感謝過去的我提供的具體資訊。

重複使用

堆疊：我可以將這個風格 LoRA 與單獨的物體 LoRA 堆疊，但我一次只保持一種風格。如果你必須堆疊，保持組合權重在 1.0 以下。
合併：我沒有將其烘烤到檢查點中。整個要點是靈活性。
團隊：我分享了 LoRA 連結和三個固定的驗證提示詞。它減少了審查的來回。人們看著相同的參考。

如果你是 WaveSpeed 或 Z-Image Turbo 的新手，官方文檔在第一次運行之前值得一讀，特別是他們關於學習率和秩的說明。我在第一輪之後略讀了它們，希望我之前這樣做了。

你也發誓過你會「只訓練一個小 LoRA」，卻發現兩晚後每張圖像都帶著「永恆的米色濾鏡」或「強制的紙質紋理背景」？

快速地，將你的 45 張圖像轉儲到 WaveSpeed，嘗試 Z-Image Turbo LoRA。然後回來告訴我：它是否拯救了你的頁首一致性，還是它讓所有物體長出了「神秘的紋理觸手」？