WAN 2.2 LoRA 训练设置：最佳学习率、步数和触发词

嘿，朋友们。你知道吗？我喜欢 WAN 2.2 处理皮肤和光线的方式，但我通常的 LoRA 训练习惯没有干净地转化。面部看起来太有光泽了，模型总是把背景拉进同样柔软的工作室外观。这没什么”错”的，只是不是我的风格。所以在 2026 年 1 月初，我进行了一些短实验，找到了感觉合理的 WAN 2.2 特定 LoRA 训练设置。没什么花哨的。只是足够降低塑料光泽，保持主体稳定，同时让基础模型呼吸。

如果你在寻找快速模板：这不是。我分享的是在多次运行中坚持下来的东西、我犹豫的地方，以及我如何调整的。这里的目标关键词很清楚，WAN 2.2 LoRA 训练设置，但目标是更平静的工作，而不是新的兔子洞。

为什么 WAN LoRA 有所不同

我注意到 WAN 2.2 的行为像一个非常固执的 SDXL 检查点：它针对清晰肖像、光滑渐变和电影光进行了调整。当我用我在普通 SDXL 基础上训练 LoRA 的方式训练时，WAN 不断将我的结果推回那种抛光的工作室氛围。

田间笔记：

提示重力很强。即使权重很轻（0.4-0.6），也会拉向干净的皮肤和对称的框架。
颜色聚类早期出现。如果你的数据集偏暖，WAN 会放大它。
背景同质化。没有推动，它默认为浅景深和柔和散景，无论你给了它什么。

实践中改变的内容：我降低了学习率，使用了比平常更多的正则化图像，并故意保持标题无聊。WAN 2.2 奖励克制。当我试图同时”教”风格和主体时，过度拟合迅速蔓延。

如果你来自 SD 1.5 LoRA 习惯，想：更少的聪明技巧，更多受控的基线。如果你习惯于 SDXL，比正常情况下慢一点，更早地融入正则化。

数据集大小指南

我用精选肖像集进行了四次传递（2026 年 1 月 5-12 日），每次都有整洁的标题和混合光线。以下是坚持下来的东西：

8-12 张图像：足以锚定特定人物或产品轮廓。使用强正则化。保持构图多样化。
15-30 张图像：单一主体身份与温和风格的最佳位置。如果你想要背景泛化，添加 20-40% 非肖像照片。
40-80 张图像：当你编码一致的品牌外观或多角度对象线时很有用。你需要仔细的标题和更多步骤。

比原始计数更重要的事项：

姿态多样性而不是位置多样性。WAN 很好地概括位置：当每张照片都是同一角度时，它会苦恼。
曝光平衡。如果你的集合中一半曝光不足，WAN 后来会使一切变暗。我在训练前标准化了直方图。
标题简洁性。描述性的，不是诗意的。“subject_token, denim jacket, window light, medium close-up” 胜过 “moody candid portrait near a rainy window.”

对于身份 LoRA，我选择了 12-20 张图像作为可靠的下限。对于风格 LoRA，30-50 给了我呼吸空间，而不会陷入 WAN 的默认肖像光泽。

LR/步骤基线

对我来说感觉稳定的 WAN 2.2 LoRA 训练设置（Kohya-ss 和 SDXL 基础）：

秩（dim）：16-32。我默认为身份 16，风格 32。
Alpha：匹配 dim（例如 16/16）。较低的 Alpha 使结果变脆。
优化器：带权重衰减 0.01 的 AdamW。
学习率：身份 5e-5，风格 7e-5 到 1e-4。WAN 用塑料皮肤和损失峰值惩罚高 LR。
调度器：带预热的余弦。预热总步骤的 5%。
批大小：2-4（A100/4090）。梯度累积可根据需要模拟 8。
分辨率：长边 SDXL 原生 1024 带桶装（例如 1024×768, 1024×1024）。不要放大：它只会记忆噪音。
周期/步骤：我按步骤停止，而不是周期。
- 12-20 张图像：1,200-2,000 步
- 30-50 张图像：2,000-3,500 步
- 60-80 张图像：3,500-5,000 步

我使用的理智检查：

每 200-400 步保存一次，并使用固定提示 + 种子预览。
如果样本在步骤 600 之前锐化太快，LR 太高。
如果在 20 张图像集上约 1,400 步时身份未锁定，标题或正则化的偏差比 LR 更大。

这些数字不会赢得排行榜，但它们抵抗 WAN 将一切打磨光滑的倾向。

触发词策略

我保持触发器最少。WAN 已经有了强大的先验：堆叠可爱的令牌只会增加噪音。

我做的是：

一个实例令牌 + 一个类令牌。例如：“sora_person” 作为实例，“person” 或 “woman/man” 作为标题中的类。
将实例令牌放在每个标题的开头。保持小写，如果可以的话一个词。
避免在同一 LoRA 中混合风格令牌，除非你真的想要风格 LoRA。在 WAN 2.2 中混合身份和风格变得混乱很快。

在提示中，我只调用 LoRA 和实例令牌，然后层柔和的转向：

lora: 名称在 0.5-0.8
提示中早期的实例令牌
风格词汇晚且轻（“natural light, clean color, minimal retouch”）

我出于好奇尝试了发明的”WAN-style”触发器。它们没有帮助。基础已经可以做那部分，LoRA 应该切出你需要的东西，而不是重新宣布 WAN 2.2 擅长的东西。

正则化图像

这是安静的英雄。我使用了每个训练图像 1-3 倍的正则化图像，与标题类匹配。

对于身份 LoRA：20-60 个标记为相同类别的正则图像（“person”）。我用简单提示从 WAN 2.2 本身生成它们：“photo of a person, neutral background, medium close-up, natural light.”
对于对象 LoRA：每个产品类的正则图像（“shoe,” “bottle,” “chair”）。保持准确：不要混合类别。

为什么重要：WAN 2.2 喜欢在所有东西上刻上肖像美学。正则图像给了它保持基础范围的权限，同时让 LoRA 保持身份。没有它们，我的 LoRA 过度强调皮肤平滑和散景，然后拒绝离开。感觉正确的设置：

保持正则化图像视觉上无聊且曝光良好。
不要用实例令牌标记正则化图像的标题：只有类。
在整个过程中混合 10-20% 的训练批次与正则图像（不仅仅在开始时）。

如果你时间紧张，在调整优化器之前添加正则化图像。这是更大的杠杆。

过度拟合检测

我不仅依赖损失。WAN 用漂亮的样本隐藏过度拟合。这些是我的迹象：

提示惯性：改变提示几乎不改变输出。一切都漂移回同一个镜头和背景。
皮肤塑性：毛孔均匀消失，尤其是在颧骨和前额周围，即使有粗糙的光线提示。
姿态回声：跨越不同种子的重复肩膀/颈部角度。
颜色锁定：一个温暖的色调，它会跨越不同的白平衡提示。

我每 200-400 步运行的快速检查：

对抗性提示：切换到”harsh overhead office light, fluorescent, unflattering”，看纹理是否返回。
背景翻转：强制”busy street, cluttered shelves”以测试组合灵活性。
负提示压力：添加”over-smooth skin, plastic texture, heavy retouch”，看它是否听取。

如果这两个测试连续失败，我回滚到上一个检查点，要么添加更多正则化图像，要么将 LR 降低一个档次。

修复崩溃

我遇到了两种崩溃：身份融化和风格锁定。

当身份融化时（面部漂移，眼睛错位）：

将 LR 降低一步（例如 7e-5 → 5e-5）。
只有当数据集有足够的角度时，才将秩从 16 增加到 32：否则它会记忆姿态，而不是身份。
紧化标题：切割形容词，保持焦距提示，保持实例令牌第一。
添加 10-20 个更多相同类别的正则化图像。

当风格锁定时（一切看起来都像 WAN 的默认工作室肖像）：

将非肖像照片添加到数据集（环境、手、部分身体）。
用余弦计划增加 400-800 步：不要尖峰 LR。
在推理时降低 LoRA 权重（0.8 → 0.5），并降低指导（CFG 5-6 → 3.5-4.5）。WAN 对较低的 CFG 反应良好。
如果使用噪声偏移或大量颜色增强，将其调回。WAN 已经稳定色彩：额外的增强使我的输出变得混乱。

其他有帮助的旋钮：

梯度剪裁到 1.0 以避免突然峰值。
小运行中的 EMA 关闭：对于小数据集，EMA 使身份落后于预览。
种子规律：每次用固定种子预览。当其他一切都静止时，小的改变更容易判断。

导出和重用

一些习惯后来为我节省了时间：

用清晰的名称保存增量检查点：模型、秩、LR、步骤和日期。例如：wan22_lora_id_r16_lr5e-5_s1800_2026-01-09.safetensors。
如果你的工具支持，在 LoRA 元数据中保留训练提示、验证提示和种子。未来的我总是感谢过去的我。
版本粘性使用：在 WAN 2.2 上训练的 LoRA 在 WAN 2.2 和亲密兄弟上效果最佳。它们可在其他 SDXL 基础上使用，但颜色和皮肤处理转移了。我把它们当作”WAN-first”。
感觉很好的推理默认值：
- LoRA 权重 0.5-0.8（身份），0.3-0.6（风格叠加）
- CFG 3.5-5.5
- 30-40 步带稳定采样器（DPM++ 2M Karras 工作很好）
- 保持提示简短：WAN 听到细微的推动

如果你想合并 LoRA：我用堆叠小的、单一目的的 LoRA（身份为 0.6 + 温和颜色外观为 0.3）取得了更好的成功，而不是训练一个大的”一切”LoRA。WAN 尊重模块性。

更多详细的 WAN 2.2 工作流和示例，请查看官方 ComfyUI 文档。对于训练，我仍然喜欢在本地运行，这样我可以看到每一个旋钮。但当涉及到推理、模型路由或在不摆弄 API 的情况下在基础模型之间切换时，你可以尝试我们的 WaveSpeed。它在一个一致的端点后面保留不同的模型，所以我可以专注于提示和输出，而不是基础设施。