在WaveSpeed上训练Z-Image Turbo LoRA：数据集、步骤和常见错误

你好，伙计。我是Dora。

上周，我想为一组页眉图像制作一个小的、一致的风格。库存图片感觉不对，手动调整提示词一直在漂移。所以我尝试了一直在避免的东西：在WaveSpeed上的Z-Image Turbo上进行快速LoRA训练。我预期会有繁琐的设置和大量的试错。但我得到的比我想象的要简单，不是轻松，只是整洁。以下是我在2026年1月的两个晚上在WaveSpeed上训练Z-Image Turbo LoRA的方法，哪些有效，哪些无效，以及我将重新使用的设置。这不是一份榨取每一分百分比的指南。这是一个稳定的基线，让我的思路清晰，结果可预测。

数据集规则

我收集了什么

我保持规模较小：45张图像用于定义的视觉风格（柔和、简洁线条、温柔纸质纹理）。我在30-120张图像间有过不错的结果。少于20张往往会过度拟合；超过150张你训练的更像是微调而不是LoRA，Z-Image Turbo的速度优势开始变平。

多样性胜于数量

我将数据集分为：

70%“核心风格”图像（我想教的风格），
30%背景多样性（不同的对象/背景，这样LoRA不会将风格绑定到一个场景）。

角度、光线和纵横比各不相同。我避免了近似重复（没有同一对象从5°偏移的三张照片）。

尺寸和格式

分辨率：短边768像素。Turbo模型可以处理1024，但768使训练更轻量，并在我的测试中减少了伪影。
格式：PNG或高质量JPEG。我去除了元数据。大型嵌入式配置文件有时会略微混淆颜色。
裁剪：我进行裁剪以保持主体突出但不是每次都居中。对称性使模型变得懒惰。

标注提示

我尝试了两遍：先自动标注，然后轻轻编辑。自动标注让我达到了70%。最后30%很重要。

保持标注简短一致

1-2句话或紧凑的标签列表。
提及风格令牌（下面有更多关于令牌的内容）加上一个类别词。
不要描述所有内容。只命名稳定和重要的东西。

我使用的示例：

“soka-style，桌上陶瓷杯的极简插图，柔和纸质纹理，柔和调色板。”
“soka-style，粘土花盆中的简单植物，侧光，干净的负空间。“

类别词有所帮助

如果你在教授风格，使用类别词（插图、照片、渲染、产品照）。如果你在教授对象/角色，使用它是什么（杯子、背包、规划本）。这有助于LoRA泛化。没有类别词，我早期的运行使LoRA紧紧贴住布局。

不要用形容词过度拟合

在第二遍后我移除了重复的形容词。如果每个标注都说”温暖、舒适、柔软”，模型即使在你不想要时也会锁定那种氛围。我为语调保留了一个形容词。

负面信号

在确实重要的几个标注中我添加了淡淡的否定：“没有刺眼的阴影。“不是到处都是，只是在对比在原始图像中出错的地方。太多的否定在推理期间使其变得固执。

小提示：我尝试了五张图像无标注作为测试。结果变得有点嘈杂。不是很糟糕，但如果一致性很重要，我不会跳过标注。

训练参数基线

这些是在WaveSpeed上使用Z-Image Turbo给我稳定结果的设置。我运行了三个短训练（在我工作区的默认GPU上每个大约18-22分钟）。你的时间可能会有所不同。

我重新使用的核心设置

基础：Z-Image Turbo（2026年1月最新版本）
LoRA秩（dim）：16用于微妙的风格；当风格需要更多打击力时为32。我定在了16。
Alpha：匹配秩（16）或一半（8）。我匹配了它。
学习率：1e-4开始。如果风格不粘住则为2e-4。1e-3在我的测试中过度烹饪很快。Hugging Face的LoRA训练文档建议对大多数稳定扩散模型从1e-4开始。
批大小：2-4。我使用4来保持步数合理。
Epochs/步数：目标是对数据进行1-2次完整传递。对于45张图像×10次重复÷批大小4≈每个epoch 112步。我训练了2个epoch（≈224步）。超过3个epoch开始记忆背景。
调度器：Cosine或带预热的常量。我使用了带5%预热的cosine。
精度：在可用时bfloat16。这里没问题。

正则化图像

对于风格LoRA，我不总是添加正则化。对于对象或角色，我添加50-100个类别图像（简单的”杯子”、“肖像”）来保持解剖学和形状诚实。在Turbo上，这显著减少了植物照中奇怪的手状叶子。

检查点和保存

我启用了每50-80步保存一次。它让我回到最甜蜜的位置，对我的数据集来说大约是步180。后面的步骤看起来更干净但在提示词中灵活性更低。

如果你想进行快速的理智检查：先进行60-90步的运行。它不会完美，但会告诉你你的数据集是否在教授正确的课程。

触发词

我使用了唯一的令牌来锚定风格：“soka-style”。你可以使用”kavli-ark”或”mivva”之类的东西。短小、创意十足、不太可能与真实词汇冲突。

我如何编写标注

开始标注时令牌出现一次：“soka-style，极简插图…”
添加类别词：插图、照片、渲染，无论什么匹配。
在整个数据集中保持一致。

我如何生成提示

正面：“陶瓷杯在木桌上的产品照，soka-style，柔和纸质纹理，柔和颜色”
负面：“刺眼的阴影，重颗粒，文字水印，色差”

何时避免触发词

如果你在训练一个非常具体的对象（品牌瓶、吉祥物），在标注中使用令牌+类别词（“mivva-bottle”），但你不必在每个推理提示词中强制该令牌。在我的测试中，Turbo尊重训练分布：有时仅有类别词就足够了。该令牌在场景变得复杂时有所帮助。

一个奇怪的事：堆叠两个风格令牌使模型困惑（“soka-style, nova-style”）。我得到了一个混浊的混合。一次一个令牌更干净。

验证图像

验证救了我不去追逐幻影。

固定种子和小网格

我设置了三个我关心的提示词，在运行中保持固定：

“桌上的陶瓷杯，soka-style，柔和纸质纹理，柔和颜色”
“窗边的叶茂植物，soka-style，侧光，干净的背景”
“规划本和笔，soka-style，俯视图，温柔的阴影”

种子：固定（我使用12345）。每个提示词一个种子。
步数：Turbo为20-28。超过30开始过度锐化。
CFG：3.5-6。我喜欢4.5的平衡。
采样器：DPM++ 2M Karras或不错的Euler变体。两者都表现不错。
大小：768×768以与训练裁剪保持奇偶性。

我还在没有令牌的情况下渲染了相同的集合一次，以查看风格是否过于主导。在我的第二次运行中，即使没有令牌，杯子看起来仍然”纸质”，提示我推送风格太硬。将LoRA权重降低到0.6修复了它。

如果可以，在训练时保持轻量级验证面板打开。观看相同的三个提示词更新比随意查看样本要平静。

修复

以下是出错的地方以及修复方法。

过度拟合背景

症状：相同的纸质纹理出现在不相关的场景中。
修复：减少每张图像的重复（从10到6），添加6-10个中立背景，在推理时降低LoRA权重（0.6-0.75）。

颜色漂移到米色

症状：一切都像晚午的滤镜一样变暖。
修复：从标注中移除重复的”温暖/柔软/舒适”形容词；添加6个更冷色调的图像；在数据集中设置白平衡多样性；将”过度温暖的色调”添加到负面。

脆弱的提示词

症状：小的提示词变化导致组合崩溃。
修复：增加对象类型和布局中的数据集多样性；使用稍低的LR（1e-4而不是2e-4）进行训练；如果风格复杂，尝试秩32。

发布和重新使用

训练这个LoRA之所以可管理，很大程度上是因为我们建造WaveSpeed以移除这个过程的烦人部分。我不用连接脚本或看护GPU，我可以上传一个小数据集，运行短Turbo LoRA训练，比较检查点，并在项目之间重新使用模型而不会打破我的流程。

如果你厌倦了风格漂移、过度拟合或丢失”好的运行”。
→ 在WaveSpeed上训练Z-Image Turbo LoRA 当第三次运行感觉稳定时，我在WaveSpeed中发布了LoRA，带有一个简单的模型卡：

它的用途：微妙的纸质纹理风格、柔和调色板、简洁形状。
它不是用于：逼真肖像、高光泽产品、重文本覆盖。
有效的设置：权重0.6-0.85，CFG~4.5，20-26步，768输出。
两个好的提示词和一个警告。
版本说明：训练于2026年1月，秩16，LR 1e-4，~224步。

我保持许可证简单并添加了三个验证图像。未来的我会感谢过去的我提供的具体信息。

重新使用

堆叠：我可以将这个风格LoRA与单独的对象LoRA堆叠，但我每次只保留一个风格。如果你必须堆叠，保持组合权重在1.0以下。
合并：我没有将其烘烤到检查点。整个要点是灵活性。
团队：我共享了LoRA链接和三个固定验证提示词。它减少了审查的来回。人们看的是相同的参考。

如果你是WaveSpeed或Z-Image Turbo的新手，在你的第一次运行之前值得浏览官方文档，特别是他们关于学习率和秩的说明。我在第一遍后浏览了它们，希望我早点做过。

你也曾信誓旦旦地说你会”只训练一个小LoRA”，却发现两个晚上后每张图像都戴着”永恒米色滤镜”或”强制纸质纹理背景”吗？

快速，将你的45张图像转储到WaveSpeed中，尝试Z-Image Turbo LoRA。然后回来告诉我：它救了你的页眉一致性，还是让你的所有对象都长出了”神秘纹理触手”？