在WaveSpeed上训练Z-Image Turbo LoRA:数据集、步骤和常见错误

在WaveSpeed上训练Z-Image Turbo LoRA:数据集、步骤和常见错误

你好,伙计。我是Dora。

上周,我想为一组页眉图像制作一个小的、一致的风格。库存图片感觉不对,手动调整提示词一直在漂移。所以我尝试了一直在避免的东西:在WaveSpeed上的Z-Image Turbo上进行快速LoRA训练。我预期会有繁琐的设置和大量的试错。但我得到的比我想象的要简单,不是轻松,只是整洁。 以下是我在2026年1月的两个晚上在WaveSpeed上训练Z-Image Turbo LoRA的方法,哪些有效,哪些无效,以及我将重新使用的设置。这不是一份榨取每一分百分比的指南。这是一个稳定的基线,让我的思路清晰,结果可预测。

数据集规则

我收集了什么

我保持规模较小:45张图像用于定义的视觉风格(柔和、简洁线条、温柔纸质纹理)。我在30-120张图像间有过不错的结果。少于20张往往会过度拟合;超过150张你训练的更像是微调而不是LoRA,Z-Image Turbo的速度优势开始变平。

多样性胜于数量

我将数据集分为:

  • 70%“核心风格”图像(我想教的风格),
  • 30%背景多样性(不同的对象/背景,这样LoRA不会将风格绑定到一个场景)。

角度、光线和纵横比各不相同。我避免了近似重复(没有同一对象从5°偏移的三张照片)。

尺寸和格式

  • 分辨率:短边768像素。Turbo模型可以处理1024,但768使训练更轻量,并在我的测试中减少了伪影。
  • 格式:PNG或高质量JPEG。我去除了元数据。大型嵌入式配置文件有时会略微混淆颜色。
  • 裁剪:我进行裁剪以保持主体突出但不是每次都居中。对称性使模型变得懒惰。

标注提示

我尝试了两遍:先自动标注,然后轻轻编辑。自动标注让我达到了70%。最后30%很重要。

保持标注简短一致

  • 1-2句话或紧凑的标签列表。
  • 提及风格令牌(下面有更多关于令牌的内容)加上一个类别词。
  • 不要描述所有内容。只命名稳定和重要的东西。

我使用的示例:

  • “soka-style,桌上陶瓷杯的极简插图,柔和纸质纹理,柔和调色板。”
  • “soka-style,粘土花盆中的简单植物,侧光,干净的负空间。“

类别词有所帮助

如果你在教授风格,使用类别词(插图、照片、渲染、产品照)。如果你在教授对象/角色,使用它是什么(杯子、背包、规划本)。这有助于LoRA泛化。没有类别词,我早期的运行使LoRA紧紧贴住布局。

不要用形容词过度拟合

在第二遍后我移除了重复的形容词。如果每个标注都说”温暖、舒适、柔软”,模型即使在你不想要时也会锁定那种氛围。我为语调保留了一个形容词。

负面信号

在确实重要的几个标注中我添加了淡淡的否定:“没有刺眼的阴影。“不是到处都是,只是在对比在原始图像中出错的地方。太多的否定在推理期间使其变得固执。

小提示:我尝试了五张图像无标注作为测试。结果变得有点嘈杂。不是很糟糕,但如果一致性很重要,我不会跳过标注。

训练参数基线

这些是在WaveSpeed上使用Z-Image Turbo给我稳定结果的设置。我运行了三个短训练(在我工作区的默认GPU上每个大约18-22分钟)。你的时间可能会有所不同。

我重新使用的核心设置

  • 基础:Z-Image Turbo(2026年1月最新版本)
  • LoRA秩(dim):16用于微妙的风格;当风格需要更多打击力时为32。我定在了16。
  • Alpha:匹配秩(16)或一半(8)。我匹配了它。
  • 学习率:1e-4开始。如果风格不粘住则为2e-4。1e-3在我的测试中过度烹饪很快。Hugging Face的LoRA训练文档建议对大多数稳定扩散模型从1e-4开始。
  • 批大小:2-4。我使用4来保持步数合理。
  • Epochs/步数:目标是对数据进行1-2次完整传递。对于45张图像×10次重复÷批大小4≈每个epoch 112步。我训练了2个epoch(≈224步)。超过3个epoch开始记忆背景。
  • 调度器:Cosine或带预热的常量。我使用了带5%预热的cosine。
  • 精度:在可用时bfloat16。这里没问题。

正则化图像

对于风格LoRA,我不总是添加正则化。对于对象或角色,我添加50-100个类别图像(简单的”杯子”、“肖像”)来保持解剖学和形状诚实。在Turbo上,这显著减少了植物照中奇怪的手状叶子。

检查点和保存

我启用了每50-80步保存一次。它让我回到最甜蜜的位置,对我的数据集来说大约是步180。后面的步骤看起来更干净但在提示词中灵活性更低。

如果你想进行快速的理智检查:先进行60-90步的运行。它不会完美,但会告诉你你的数据集是否在教授正确的课程。

触发词

我使用了唯一的令牌来锚定风格:“soka-style”。你可以使用”kavli-ark”或”mivva”之类的东西。短小、创意十足、不太可能与真实词汇冲突。

我如何编写标注

  • 开始标注时令牌出现一次:“soka-style,极简插图…”
  • 添加类别词:插图、照片、渲染,无论什么匹配。
  • 在整个数据集中保持一致。

我如何生成提示

  • 正面:“陶瓷杯在木桌上的产品照,soka-style,柔和纸质纹理,柔和颜色”
  • 负面:“刺眼的阴影,重颗粒,文字水印,色差”

何时避免触发词

如果你在训练一个非常具体的对象(品牌瓶、吉祥物),在标注中使用令牌+类别词(“mivva-bottle”),但你不必在每个推理提示词中强制该令牌。在我的测试中,Turbo尊重训练分布:有时仅有类别词就足够了。该令牌在场景变得复杂时有所帮助。

一个奇怪的事:堆叠两个风格令牌使模型困惑(“soka-style, nova-style”)。我得到了一个混浊的混合。一次一个令牌更干净。

验证图像

验证救了我不去追逐幻影。

固定种子和小网格

我设置了三个我关心的提示词,在运行中保持固定:

  1. “桌上的陶瓷杯,soka-style,柔和纸质纹理,柔和颜色”
  2. “窗边的叶茂植物,soka-style,侧光,干净的背景”
  3. “规划本和笔,soka-style,俯视图,温柔的阴影”
  • 种子:固定(我使用12345)。每个提示词一个种子。
  • 步数:Turbo为20-28。超过30开始过度锐化。
  • CFG:3.5-6。我喜欢4.5的平衡。
  • 采样器:DPM++ 2M Karras或不错的Euler变体。两者都表现不错。
  • 大小:768×768以与训练裁剪保持奇偶性。

我还在没有令牌的情况下渲染了相同的集合一次,以查看风格是否过于主导。在我的第二次运行中,即使没有令牌,杯子看起来仍然”纸质”,提示我推送风格太硬。将LoRA权重降低到0.6修复了它。

如果可以,在训练时保持轻量级验证面板打开。观看相同的三个提示词更新比随意查看样本要平静。

修复

以下是出错的地方以及修复方法。

过度拟合背景

  • 症状:相同的纸质纹理出现在不相关的场景中。
  • 修复:减少每张图像的重复(从10到6),添加6-10个中立背景,在推理时降低LoRA权重(0.6-0.75)。

颜色漂移到米色

  • 症状:一切都像晚午的滤镜一样变暖。
  • 修复:从标注中移除重复的”温暖/柔软/舒适”形容词;添加6个更冷色调的图像;在数据集中设置白平衡多样性;将”过度温暖的色调”添加到负面。

脆弱的提示词

  • 症状:小的提示词变化导致组合崩溃。
  • 修复:增加对象类型和布局中的数据集多样性;使用稍低的LR(1e-4而不是2e-4)进行训练;如果风格复杂,尝试秩32。

发布和重新使用

训练这个LoRA之所以可管理,很大程度上是因为我们建造WaveSpeed以移除这个过程的烦人部分。我不用连接脚本或看护GPU,我可以上传一个小数据集,运行短Turbo LoRA训练,比较检查点,并在项目之间重新使用模型而不会打破我的流程。

如果你厌倦了风格漂移、过度拟合或丢失”好的运行”。
→ 在WaveSpeed上训练Z-Image Turbo LoRA 当第三次运行感觉稳定时,我在WaveSpeed中发布了LoRA,带有一个简单的模型卡:

  • 它的用途:微妙的纸质纹理风格、柔和调色板、简洁形状。
  • 它不是用于:逼真肖像、高光泽产品、重文本覆盖。
  • 有效的设置:权重0.6-0.85,CFG~4.5,20-26步,768输出。
  • 两个好的提示词和一个警告。
  • 版本说明:训练于2026年1月,秩16,LR 1e-4,~224步。

我保持许可证简单并添加了三个验证图像。未来的我会感谢过去的我提供的具体信息。

重新使用

  • 堆叠:我可以将这个风格LoRA与单独的对象LoRA堆叠,但我每次只保留一个风格。如果你必须堆叠,保持组合权重在1.0以下。
  • 合并:我没有将其烘烤到检查点。整个要点是灵活性。
  • 团队:我共享了LoRA链接和三个固定验证提示词。它减少了审查的来回。人们看的是相同的参考。

如果你是WaveSpeed或Z-Image Turbo的新手,在你的第一次运行之前值得浏览官方文档,特别是他们关于学习率和秩的说明。我在第一遍后浏览了它们,希望我早点做过。

你也曾信誓旦旦地说你会”只训练一个小LoRA”,却发现两个晚上后每张图像都戴着”永恒米色滤镜”或”强制纸质纹理背景”吗?

快速,将你的45张图像转储到WaveSpeed中,尝试Z-Image Turbo LoRA。然后回来告诉我:它救了你的页眉一致性,还是让你的所有对象都长出了”神秘纹理触手”?