在WaveSpeed上訓練Z-Image Turbo LoRA:數據集、步驟和常見錯誤

在WaveSpeed上訓練Z-Image Turbo LoRA:數據集、步驟和常見錯誤

嘿,夥計。我是朵拉。

上週,我想要一套小而風格一致的頁首圖像。庫存圖片感覺不對勁,手動調整提示詞持續漂移。所以我嘗試了一直在迴避的事情:在 WaveSpeed 上的 Z-Image Turbo 上進行快速 LoRA 訓練。我預期會遇到繁瑣的設定和大量的試錯。結果比我想的要簡單得多,不是輕而易舉,只是井井有條。 以下是我在 2026 年 1 月的兩個夜晚內在 WaveSpeed 上訓練 Z-Image Turbo LoRA 的過程、什麼有效、什麼無效,以及我會重複使用的設定。這不是一份榨取每一分收益的指南。它是一個穩定的基線,讓我的思路清晰,結果可預測。

數據集規則

我蒐集了什麼

我保持簡單:45 張圖像用於定義的視覺風格(柔和、乾淨的線條、溫和的紙質紋理)。我在 30–120 張圖像之間都有不錯的結果。少於 20 張傾向於過度擬合:超過 150 張你訓練的更像是微調而不是 LoRA,Z-Image Turbo 的速度優勢開始平坦化。

多樣性勝於數量

我將數據集分為:

  • 70% 「核心外觀」圖像(我想教授的風格),
  • 30% 上下文多樣性(不同的物體/背景,讓 LoRA 不會將風格綁定到一個場景)。

角度、光線和寬高比各不相同。我避免了近似重複(沒有同一物體在 5° 偏移下的三張照片)。

尺寸和格式

  • 解析度:短邊 768 像素。Turbo 模型可以處理 1024,但 768 使訓練更輕便,並在我的測試中減少了偽影。
  • 格式:PNG 或高品質 JPEG。我去除了元數據。大型嵌入式設定檔有時會稍微混淆顏色。
  • 裁剪:我裁剪以保持主體突出,但並非每次都居中。對稱性使模型變得懶惰。

字幕撰寫技巧

我嘗試了兩輪:先自動標籤,然後輕微編輯。自動字幕讓我達到了 70%。最後 30% 很重要。

保持字幕簡短且一致

  • 1–2 句話或緊湊的標籤列表。
  • 提及風格令牌(更多關於令牌的內容見下文)加上一個類別詞。
  • 不要描述所有內容。只命名穩定且重要的內容。

我使用的例子:

  • 「soka-style,陶瓷馬克杯在辦公桌上的極簡風格插圖,柔和的紙質紋理,柔和的調色板。」
  • 「soka-style,粘土罐中簡單的植物,側面光線,乾淨的負空間。」

類別詞有幫助

如果你在教授風格,使用類別詞(插圖、相片、肖像、產品照)。如果你在教授物體/角色,使用它是什麼(馬克杯、背包、計劃本)。這有助於 LoRA 泛化。沒有類別詞,我早期的嘗試使 LoRA 緊貼佈局。

不要用形容詞過度擬合

我在第二輪之後刪除了重複的形容詞。如果每個字幕都說「溫暖、舒適、柔軟」,模型即使你不想要也會鎖定那種氛圍。我為語氣保留了一個形容詞。

負面信號

我在少數確實重要的字幕中添加了輕微的負面詞:「沒有刺眼的陰影。」不是到處都有,只是在原始圖像中對比度錯誤的地方。太多的負面詞使其在推理期間變得固執。

小註:我嘗試了五張圖像的無字幕測試。結果變得稍微有點嘈雜。不是很糟,但如果一致性很重要,我不會跳過字幕。

訓練參數基線

這些是在 WaveSpeed 上使用 Z-Image Turbo 給我穩定結果的設定。我運行了三個短訓練(在我工作區中的默認 GPU 上各約 18–22 分鐘)。你的時間可能不同。

我重複使用的核心設定

  • 基礎:Z-Image Turbo(截至 2026 年 1 月的最新版本)
  • LoRA 秩(dim):16 用於細微風格:32 當風格需要更多衝擊力時。我選擇了 16。
  • Alpha:匹配秩(16)或一半(8)。我配對了。
  • 學習率:1e-4 開始。如果風格不粘著,則為 2e-4。1e-3 在我的測試中過度烘烤得很快。Hugging Face 的 LoRA 訓練文檔建議對大多數穩定擴散模型從 1e-4 開始。
  • 批量大小:2–4。我使用 4 來保持步驟合理。
  • 時期/步驟:目標是 1–2 次完整遍歷數據。對於 45 張圖像 × 10 重複 ÷ 批次 4 ≈ 每個時期 112 步。我訓練了 2 個時期(≈224 步)。超過 3 個時期開始記住背景。
  • 調度器:Cosine 或帶有預熱的恆定。我使用了 cosine,預熱 5%。
  • 精度:可用時為 bfloat16。這裡很好。

正則化圖像

使用風格 LoRA,我並不總是添加正則化。對於物體或角色,我添加 50–100 張類別圖像(普通「馬克杯」、「肖像」)以保持解剖和形狀誠實。在 Turbo 上,這明顯減少了植物照片中奇怪的類手葉。

檢查點和儲存

我啟用了每 50–80 步儲存一次。它讓我回滾到最甜蜜的地方,我的集合大約在第 180 步。稍後的步驟看起來更乾淨,但在提示詞中靈活性較低。

如果你想進行快速檢查:先進行 60–90 步的運行。它不會完美,但它會告訴你你的數據集是否在教授正確的課程。

觸發詞

我使用了一個獨特的令牌來錨定風格:「soka-style」。你可以使用「kavli-ark」或「mivva」之類的東西。簡短、創造的,不太可能與真實詞語衝突。

我如何撰寫字幕

  • 在字幕中使用令牌一次:「soka-style,極簡風格插圖…」
  • 添加一個類別詞:插圖、相片、渲染,任何匹配的。
  • 在整個數據集中保持一致。

我如何提示

  • 正面:「陶瓷馬克杯在木製辦公桌上的產品照片,soka-style,柔和的紙質紋理,柔和的顏色」
  • 負面:「刺眼的陰影、重粒度、文字浮水印、色差」

何時避免觸發詞

如果你訓練一個非常具體的物體(品牌瓶子、吉祥物),在字幕中使用令牌 + 類別詞(「mivva-bottle」),但你不必在每個推理提示中強制使用令牌。在我的測試中,Turbo 尊重訓練分佈:有時只是類別詞就夠了。令牌在場景變得複雜時有幫助。

一個奇怪之處:堆疊兩個風格令牌混淆了模型(「soka-style,nova-style」)。我得到了模糊的混合。一次一個令牌更乾淨。

驗證圖像

驗證使我避免了追逐幽靈。

固定種子和小網格

我設定了三個我關心的提示詞,並在所有運行中保持它們固定:

  1. 「辦公桌上的陶瓷馬克杯,soka-style,柔和的紙質紋理,柔和的顏色」
  2. 「窗邊的有葉子的植物,soka-style,側光,乾淨的背景」
  3. 「計劃本和筆,soka-style,俯視圖,溫和的陰影」
  • 種子:固定(我使用了 12345)。每個提示詞一個種子。
  • 步驟:Turbo 20–28。超過 30 開始過度銳化。
  • CFG:3.5–6。我喜歡 4.5 的平衡。
  • 採樣器:DPM++ 2M Karras 或一個不錯的 Euler 變體。兩者都表現良好。
  • 尺寸:768×768,與訓練裁剪相同。

我也在沒有令牌的情況下渲染了相同的集合,以查看風格是否太佔主導地位。在我的第二次運行中,馬克杯在沒有令牌的情況下仍然看起來「紙質」,這暗示我已經將風格推得太硬了。將 LoRA 權重調低到 0.6 修復了它。

如果可以的話,在訓練時保持一個輕量級的驗證面板打開。觀察相同的三個提示詞更新比眼球隨機樣本要冷靜得多。

修復

以下是出錯的地方以及如何修復它。

過度擬合背景

  • 症狀:相同的紙質紋理出現在不相關的場景中。
  • 修復:減少每張圖像的重複次數(從 10 到 6),添加 6–10 個中性背景,在推理時降低 LoRA 權重(0.6–0.75)。

顏色漂移到米色

  • 症狀:一切都變暖,像一個晚間午後濾鏡。
  • 修復:刪除字幕中重複的「溫暖/柔軟/舒適」形容詞:添加 6 張較冷色調的圖像:在數據集中設定白平衡多樣性:將「過度溫暖的色調」添加到負面。

脆弱的提示詞

  • 症狀:小的提示詞變化導致組成崩潰。
  • 修復:增加數據集在物體類型和佈局中的多樣性:用稍低的 LR 訓練(1e-4 而不是 2e-4):如果風格複雜,嘗試秩 32。

發佈和重複使用

訓練這個 LoRA 之所以容易控制,主要是因為我們建造 WaveSpeed 以消除過程中惱人的部分。我不必編寫腳本或看管 GPU,而是可以上傳小數據集、運行短 Turbo LoRA 訓練、比較檢查點,並在不打破我的流程的情況下跨項目重複使用該模型。

如果你厭倦了風格漂移、過度擬合或忘記「最好的運行」。
→ 在 WaveSpeed 上訓練 Z-Image Turbo LoRA 當第三次運行感覺穩定時,我在 WaveSpeed 內發佈了 LoRA,附帶一個簡單的模型卡:

  • 用途:細微的紙質紋理風格、柔和的調色板、乾淨的形狀。
  • 不用於:逼真的肖像、高光澤產品、大量文字疊加。
  • 有效的設定:權重 0.6–0.85、CFG ~4.5、20–26 步、768 輸出。
  • 兩個好的提示詞和一個警告。
  • 版本說明:訓練於 2026 年 1 月,秩 16,LR 1e-4,~224 步。

我保持許可證簡單並添加了三個驗證圖像。未來的我會感謝過去的我提供的具體資訊。

重複使用

  • 堆疊:我可以將這個風格 LoRA 與單獨的物體 LoRA 堆疊,但我一次只保持一種風格。如果你必須堆疊,保持組合權重在 1.0 以下。
  • 合併:我沒有將其烘烤到檢查點中。整個要點是靈活性。
  • 團隊:我分享了 LoRA 連結和三個固定的驗證提示詞。它減少了審查的來回。人們看著相同的參考。

如果你是 WaveSpeed 或 Z-Image Turbo 的新手,官方文檔在第一次運行之前值得一讀,特別是他們關於學習率和秩的說明。我在第一輪之後略讀了它們,希望我之前這樣做了。

你也發誓過你會「只訓練一個小 LoRA」,卻發現兩晚後每張圖像都帶著「永恆的米色濾鏡」或「強制的紙質紋理背景」?

快速地,將你的 45 張圖像轉儲到 WaveSpeed,嘗試 Z-Image Turbo LoRA。然後回來告訴我:它是否拯救了你的頁首一致性,還是它讓所有物體長出了「神秘的紋理觸手」?