← 博客

Z-Image-Base 与 Z-Image-Turbo:质量、多样性与成本对比

Z-Image-Base 与 Turbo 正面交锋:CFG/负向提示词支持、生成速度、图像多样性、定价($0.01 vs $0.005),助您选择最适合的模型。

2 min read
Z-Image-Base 与 Z-Image-Turbo:质量、多样性与成本对比

嘿,大家好,我是 Dora。哈哈,事情起源于周二晚上的一个小麻烦:一张横幅图片在我需要清晰文字和锐利边缘时总是显得有些模糊。我已经断断续续用了几周的 Z-Image-Base 和 Z-Image-Turbo,大多凭感觉切换。那天晚上,光凭感觉已经不够了。于是我花了一个小时,又一个小时,然后整整一周的时间,在几个简单的约束条件下用相同的提示词跑了两个模型。

这不是一篇评测,而是我在日常工作中观察到的:幻灯片标题、轻量级社交图片、产品页面的概念表,以及几个故事板。如果你已经在使用太多工具,只想知道 Z-Image-Base 与 Z-Image-Turbo 究竟在哪里出现分歧,这里是简洁而审慎的版本。

功能对比概览

CFG 支持对比

我保持提示词完全一致,只改变无分类器引导(CFG)的值。在 Base 中,将 CFG 从 5 提升到 9,构图变得更紧凑,对提示词的遵循度更高,同时风格不受影响。在 11 以上,Base 开始显得有些过拟合,元素变得僵硬,但并未崩溃。

Turbo 的表现则不同。CFG 低于 6 时,它会偏离:图像看起来不错,但有时对客户工作而言过于”创意”。CFG 在 7 到 8 之间,Turbo 进入状态,对齐良好,游荡减少;但超过 9 之后,它会迅速变脆。我会看到高光溢出和阴影截断,好像模型在过度迎合文字而非视觉。我周三的笔记写道:“Turbo 甜点区:7–8。Base:6–9,容错性更强。”

为什么重要:如果你习惯通过微调 CFG 来迭代,Base 提供了更宽、更平稳的范围。Turbo 则需要你尽早选定方向并坚持下去。

负面提示词支持

我不会过度依赖负面提示词,但它们确实有助于消除奇怪的装饰、多余的手、游离的 logo 和文字杂乱。Base 能遵守轻度负面提示词(“无水印”、“无边框”),同时不破坏其他细节,感觉像是在干净地做减法。

Turbo 对负面提示词的响应则更为强烈。“无文字”有时会柔化我其实想要保留的附近符文状形状(图案、远处的标牌)。当我降低负面提示词的强度(“最小化文字瑕疵”)后,Turbo 表现得更好。这提醒我要将负面提示词的强度与期望风格保持同等水平,尤其是在使用 Turbo 时。

参考图像引导

我测试了两种模式:宽松灵感(色板和布局提示)和近似匹配(比例关键的产品 mockup)。使用 Base 时,参考图像像一只稳定的手,借鉴了色调和大致布局,同时为提示词驱动的风格留出空间,适合情绪板。

Turbo 使用相同的参考图像时,倾向于模仿。对于近似匹配任务,这很有帮助:即使在较少步数下,产品角度和光照也能更紧密地跟随参考图。但对于探索性工作,Turbo 过于急切地跟随有时会让多次尝试间的变化趋于平淡。

如果你的工作流程将参考图像当作轨道使用,Turbo 很容易驾驭。如果你想要超越简单参考引导的更紧密结构控制,这篇简短的 Z-Image-Turbo ControlNet 指南解释了如何更精确地锁定构图。

采样步数差异

我坚持使用文档和 UI 中标注的默认值:Base 为 50 步,Turbo 为 8 步。由阿里巴巴通义 MAI 发布的 Z-Image-Turbo 仅使用 8 个采样步数,通过 Decoupled-DMD 蒸馏技术实现数据中心 GPU 上的亚秒级延迟,同时适配 16 GB 显存的消费级显卡。我也尝试过将 Base 降至 30 步、将 Turbo 提升至 12 步。Base 在 30 步时损失了织物和植被中的一些微对比度,不算明显,但在打印尺寸导出中足以察觉。Turbo 在 12 步时稳定性略有提升(更少的小边缘瑕疵),但构图变化不大。

实践结论:如果你在意细节的”最后 10%“,Base 的 50 步物有所值。如果你默认使用较小画布或社交裁图,Turbo 的 8 步已经足够——比我的大脑切换上下文还快,这本身就有价值。


图像质量对比

细节丰富度

我进行了几项微测试:金属纹理、逆光发丝,以及中等尺寸的衬线文字。Base 一贯产出更丰富的微细节。金属有更清晰的各向异性,发丝看起来不那么模糊,阴影保持柔和渐变而非色带。在较大画布(2048 px)上,放大到 100% 时 Base 表现得更稳定。

Turbo 并不差,只是感觉被调优为”一眼好看”。在手机尺寸下,它的图像看起来有力而精致。近距离观察,会看到一些平滑处理,细小元素更早地融合在一起。对于网页主图和幻灯片,Turbo 完全够用。对于印刷或紧密裁剪,Base 胜出。

风格多样性

我原本以为 Base 会是通才,但 Turbo 在短时间运行中让我惊喜。它在小提示词变化下能快速跳跃风格——从照片到线描再到柔和水彩——携带效应很少。这在我需要为提案快速产出变体时很有帮助。

但在较长的工作会话中,Base 覆盖了更广的范围。细微的措辞变化能产出新鲜的外观而不失质量。我周四的笔记:“Base 探索得更深,Turbo 探索得更快。“如果你喜欢游逛并精炼,Base 回报耐心。如果你需要快速获得一个谱系,Turbo 能给出令人信服的初稿。

文字渲染能力

两个模型都不是专用文字渲染器,我不会把活动素材押注在它上面。不过,我还是尝试了短词(3–6 个字母)、高对比度、简单字体。

Base 能更可靠地处理简单的大写单词,尤其在 50 步时。在 1024 px 下,我可以得到还过得去的 LOGO 或 SALE。Turbo 倾向于弯曲或丢失字母,尤其在较小尺寸时。当我将 Turbo 提升到 12 步并简化提示词后,有所改善,但仍未追上 Base。

在两个模型中都有帮助的变通方法:在提示词描述中于文字区域后面添加一个薄薄的纯色背景块。这似乎能减少模型对字形进行风格化的冲动。实用说明:对于任何文字是关键的素材,我仍然在生成后合成真实文字。


速度与延迟

Base:约 3–5 秒(50 步)

在有线连接环境下测量,CET 时区晚间。Base 在约 120 次生成中,1024 px 图像在 50 步下平均耗时 3.6–4.8 秒。某个时间段(约晚上 9 点)曾出现 6–7 秒的峰值,但很快恢复平稳。等待对我来说不成问题,因为我通常批量排列提示词,一次性统一审查。

两点小备注:

  • 感知速度很重要。Base 更稳定的计时让我形成了节奏:写→排队→喝茶→审查。这种节奏减少了上下文切换的疲劳。
  • 如果我降至 30 步,平均节省约 1.2 秒,但对于我可能复用的素材而言,质量损失不划算。

Turbo:<1 秒(8 步)

Turbo 令我惊叹。即使在较繁忙的时段,大多数图像在 1024 px 下也能在 400–800 毫秒内完成。这种速度让我在写提示词的同时进行行内迭代——调整一个短语,就能获得近乎即时的反馈。

它并不总是节省时钟时间——有时因为可以,我会点击更多次——但它确实降低了”寻找方向”工作的心理负担。对于快速故事板或缩略图,这种近乎即时的感觉让整个过程更轻松。唯一的代价:快速结果会诱使我更频繁地接受”够用就行”,这对草稿可以,对定稿则有风险。


成本分析

Base:每张图 $0.01

一分钱一张图,这批测试中 111 张图花了我 $1.11。如果我每周制作概念表(比如 400 张图),大约是 $4。使用 Base 的真正成本与其说是钱,不如说是耐心——每张图需要多等几秒,如果你在不停地生成,这会积累起来。

Turbo:每张图 $0.005

半分钱一张图听起来微不足道,直到你把数字乘起来。我为一个幻灯片 deck 生成的 250 个快速变体花了 $1.25。如果你在产品内部进行原型功能开发(大量测试截图),Turbo 对预算和 CI 流水线都更友好。

单纯比较 Z-Image-Base 与 Z-Image-Turbo 的成本过于简单,但轮廓是清晰的:Turbo 更适合探索阶段;Base 在定稿阶段仍然便宜到够用。对我有帮助的方式:用 Turbo 完成 80% 的游逛,然后切换到 Base 处理最终保留的图像。


决策树选择

以下是我到周五形成的选择路径,不具有普遍性,只是让我保持冷静和前进的那一条。

  • 我需要在一分钟内找到方向吗?Turbo。写一个较宽松的提示词,将 CFG 设为 7–8,快速浏览 6–10 个结果。
  • 我需要细节经得住 100% 裁剪或打印吗?Base。保持 50 步,CFG 6–9,让它安静渲染,不做多任务。
  • 我把参考图像当作轨道使用(匹配角度、光照、比例)?Turbo。它跟随得更紧密。
  • 我把参考图像当作情绪使用(颜色、氛围、大致布局)?Base。它留有呼吸空间。
  • 图像中的文字重要吗?Base。然后我仍然在后期添加真实文字。
  • 我受到成本或配额限制,只需要大量安全变体吗?Turbo。对预算友好,丢弃速度快。
  • 我在用精细的负面提示词迭代(去掉一件东西而不使其他地方变暗淡)?Base。它做减法更温和。

如果你希望对 Z-Image-Base 与 Z-Image-Turbo 有一条一眼即懂的规则:Turbo 用于寻找,Base 用于保留。不总是,但足够频繁,让我对此信任。

最后一点小观察:速度诱使我尽早做决定。质量邀请我看第二眼。有些日子我需要那股推力;另一些日子我需要那片停顿。你的工作可能倾向某一侧。如果你处于中间地带,就从 Turbo 开始素描,以 Base 结束定稿。