WAN 2.2 LoRA 訓練設定：最佳學習率、步驟和觸發詞

嘿，朋友們。你知道嗎？我很喜歡 WAN 2.2 處理皮膚和光線的方式，但我慣常的 LoRA 訓練習慣並不能直接套用。臉部看起來太有光澤，模型一直把背景拉進同樣柔和的攝影棚外觀。這並不是「錯誤」，只是不符合我的風格。所以在 2026 年 1 月初，我進行了一些短期實驗，找到了適合 WAN 2.2 的 LoRA 訓練設定，感覺還不錯。沒什麼花哨的。只是足以降低塑膠光澤，保持主題穩定，同時讓基礎模型有發揮空間。

如果你在找快速範本：這不是那種東西。我在分享在多次運行中驗證過的設定、我的猶豫之處，以及我如何調整。這裡的目標關鍵詞很清楚——WAN 2.2 LoRA 訓練設定——但目標是更輕鬆的工作，而不是新的兔子洞。

為什麼 WAN LoRA 有所不同

我注意到 WAN 2.2 的表現就像一個非常固執的 SDXL 檢查點：它針對清晰肖像、光滑漸層和電影化光線進行了調優。當我按照我在普通 SDXL 基礎上訓練 LoRA 的方式訓練時，WAN 一直把我的結果推回那種拋光過的攝影棚外觀。

現場筆記：

提示詞引力很強。即使是輕微的權重（0.4–0.6）也會拉向乾淨的皮膚和對稱的構圖。
顏色聚類早期就會出現。如果你的資料集偏暖色調，WAN 會放大它。
背景同質化。沒有調整，它會預設為淺景深和柔和散景，無論你輸入什麼。

實踐中改變的是：我降低了學習率，使用了比平時更多的正則化圖像，並有意保持標題無聊。WAN 2.2 獎勵克制。當我試圖同時「教」風格和主題時，過擬合很快就會爬進來。

如果你是從 SD 1.5 LoRA 習慣過來的，想想：更少的聰明技巧，更多受控的基線。如果你習慣了 SDXL，速度稍微慢一點，更早地烘焙正則化。

資料集大小指南

我進行了四次通行，使用精心整理的肖像集（2026 年 1 月 5–12 日），每個集合都有整潔的標題和混合光線。以下是驗證過的結果：

8–12 張圖像：足以錨定特定的人物或產品輪廓。使用強力正則化。保持構圖多樣化。
15–30 張圖像：單一主體身份加溫和風格的黃金分割點。如果你想讓背景泛化，添加 20–40% 的非肖像照片。
40–80 張圖像：當你編碼一致的品牌外觀或多角度物體系列時很有用。你需要小心的標題和更多步驟。

比原始數量更重要的事情：

姿勢多樣性優於位置多樣性。WAN 很好地泛化位置：它在每張照片角度都相同時掙扎。
曝光平衡。如果你的集合中一半的曝光不足，WAN 稍後會使所有東西變暗。我在訓練前標準化了直方圖。
標題簡潔性。描述性的，不詩意的。「subject_token，牛仔夾克，窗戶光線，中等特寫」優於「窗邊下雨時的憂鬱坦率肖像」。

對於身份 LoRA，我降落在 12–20 張圖像作為可靠的底線。對於風格 LoRA，30–50 張給了我充足的空間，而不會崩潰到 WAN 的預設肖像光澤。

LR/步驟基線

對我來說感覺穩定的 WAN 2.2 LoRA 訓練設定（Kohya-ss 和 SDXL 基礎）：

秩（dim）：16–32。我預設為身份 16，風格 32。
Alpha：匹配 dim（例如 16/16）。較低的 alpha 使結果不穩定。
優化器：帶有 weight_decay 0.01 的 AdamW。
學習率：身份 5e-5，風格 7e-5 到 1e-4。WAN 用塑膠感皮膚和損失尖峰懲罰高 LR。
調度器：帶預熱的餘弦。預熱總步驟的 5%。
批次大小：2–4（A100/4090）。梯度累積以模擬 8（如果需要）。
解析度：SDXL 原生的長邊 1024，帶分桶（例如 1024×768、1024×1024）。不要放大：它只是記憶噪聲。
輪數/步驟：我按步驟停止，而不是輪數。
- 12–20 張圖像：1,200–2,000 步
- 30–50 張圖像：2,000–3,500 步
- 60–80 張圖像：3,500–5,000 步

我使用的完整性檢查：

每 200–400 步保存一次，並用固定提示詞 + 種子預覽。
如果樣本在第 600 步之前銳化得太快，LR 太高。
如果在 20 張圖像集合上約 1,400 步後身份沒有鎖定，標題或正則化的偏差超過 LR。

這些數字不會贏得排行榜，但它們抵抗 WAN 對將所有東西磨光滑的傾向。

觸發詞策略

我保持觸發詞最少。WAN 已經有很強的先驗：堆積可愛的標記只會增加噪聲。

我做的是：

一個實例標記 + 一個類別標記。例如：「sora_person」作為實例，「person」或「woman/man」作為標題中的類別。
將實例標記放在每個標題的開頭。保持小寫，如果可以的話只有一個詞。
避免在同一 LoRA 中使用風格標記，除非你真的想要一個風格 LoRA。在 WAN 2.2 中混合身份和風格很快變得混亂。

在提示詞中，我只調用 LoRA 和實例標記，然後進行輕微的調整：

LoRA：名稱在 0.5–0.8
實例標記在提示詞早期
風格詞在後期和輕微（「自然光，乾淨顏色，最少修飾」）

我出於好奇嘗試了發明的「WAN 風格」觸發詞。它們沒有幫助。基礎已經做了那部分，LoRA 應該刻出你需要的，而不是重新宣佈 WAN 2.2 擅長的。

正則化圖像

這是無聲的英雄。我為每個訓練圖像使用了 1–3 倍的正則化圖像，與標題進行了類別匹配。

對於身份 LoRA：20–60 張標籤為同一類別（「person」）的正則化圖像。我用普通提示詞從 WAN 2.2 本身生成了它們：「一個人的照片，中性背景，中等特寫，自然光」。
對於物體 LoRA：每個產品類別的正則化圖像（「鞋」、「瓶子」、「椅子」）。保持準確：不要混合類別。

為什麼它重要：WAN 2.2 喜歡在所有東西上烙印其肖像美學。正則化圖像給了它許可證保留基礎的範圍，同時讓 LoRA 保持身份。沒有它們，我的 LoRA 會過度強調皮膚光滑和散景，然後拒絕離開。感覺正確的設定：

保持正則化圖像視覺上平淡且曝光良好。
不要用實例標記為正則化圖像編標題：只有類別。
在整個訓練中混合 10–20% 的訓練批次與正則化圖像（不只是開始時）。

如果你時間緊張，在你調整優化器之前添加正則化圖像。這是更大的槓桿。

過擬合檢測

我不依賴損失。WAN 在漂亮的樣本後隱藏過擬合。這些是我的線索：

提示詞慣性：改變提示詞幾乎不改變輸出。一切都漂移回相同的鏡頭和背景。
皮膚可塑性：毛孔均勻消失，特別是在頰骨和額頭周圍，即使有粗糙光線提示詞。
姿勢回聲：在不同種子中重複的肩膀/頸部角度。
顏色鎖定：一種溫色調在不同白平衡線索中粘著。

我每 200–400 步運行的快速檢查：

對抗性提示詞：切換到「刺眼的頭頂辦公室燈光，螢光，不討好」，看質地是否回復。
背景翻轉：強制「繁忙的街道，凌亂的架子」來測試構圖靈活性。
負面提示詞壓力：添加「過度光滑的皮膚、塑膠質地、重度修飾」，看它是否聽從。

如果連續兩次測試失敗，我會回滾到上一個檢查點，要麼添加更多正則化圖像，要麼把 LR 降一個台階。

修復崩潰

我遇到了兩種崩潰：身份融合和風格鎖定。

當身份融合時（臉部漂移，眼睛未對齐）：

降低 LR 一步（例如 7e-5 → 5e-5）。
只有在資料集有足夠角度時才將秩從 16 增加到 32：否則它會記憶姿勢，而不是身份。
緊縮標題：去掉形容詞，保持焦距提示，保持實例標記在前。
添加 10–20 張更多相同類別的正則化圖像。

當風格鎖定時（一切看起來像 WAN 的預設攝影棚肖像）：

將非肖像照片添加到資料集（環境、手部、局部身體）。
用餘弦調度增加 400–800 步：不要尖峰 LR。
降低推斷時的 LoRA 權重（0.8 → 0.5）並降低引導（CFG 5–6 → 3.5–4.5）。WAN 對較低 CFG 反應良好。
如果使用噪聲偏移或重度顏色擴充，撥回它們。WAN 已經穩定顏色：額外擴充使我的輸出變得混亂。

其他有幫助的控制：

在 1.0 時進行梯度剪裁以避免突然尖峰。
對於小運行關閉 EMA：使用微型資料集，EMA 使身份滯後於預覽。
種子紀律：每次用固定種子預覽。當其他一切都靜止時，小變化更容易判斷。

導出和重複使用

一些習慣節省了我以後的時間：

用清晰的名稱保存增量檢查點：模型、秩、LR、步驟和日期。例如：wan22_lora_id_r16_lr5e-5_s1800_2026-01-09.safetensors。
如果你的工具支持，在 LoRA 元資料中保留訓練提示詞、驗證提示詞和種子。未來的我總是感謝過去的我。
版本粘性使用：在 WAN 2.2 上訓練的 LoRA 在 WAN 2.2 和近親身上效果最佳。它們在其他 SDXL 基礎上可用，但顏色和皮膚處理會改變。我把它們視為「WAN 優先」。
感覺良好的推斷預設：
- LoRA 權重 0.5–0.8（身份）、0.3–0.6（風格疊加）
- CFG 3.5–5.5
- 30–40 步，穩定採樣器（DPM++ 2M Karras 效果不錯）
- 保持提示詞簡短：WAN 聽到細微的轉向

如果你想合併 LoRA：我用堆積小型、單一目的的 LoRA（身份在 0.6 + 溫和顏色外觀在 0.3）比訓練一個大「所有東西」LoRA 有更好的運氣。WAN 尊重模組化。

有關更詳細的 WAN 2.2 工作流程和示例，請查看官方 ComfyUI 文檔。對於訓練，我仍然喜歡在本地運行，這樣我可以看到每個控制。但當涉及推斷、模型路由或在不同基礎模型之間切換而不用調整 API 時，你可以嘗試我們的 WaveSpeed。它將不同的模型放在一個一致的端點後面，所以我可以專注於提示詞和輸出，而不是基礎設施。