Z-Image Reference Image Guidance: Maintain the composition while changing the style
Z-Image-Base Reference Guide for Complete Instructions: Detailed Explanation of the 'Strength' Parameter (Strong Guidance: 0.2 - 0.4 vs. Weak Guidance: 0.6 - 0.8), Style Transfer Workflow, Composition Retention Techniques.
嗨,我是 Dora。你知道吗?我有时候能生成一张很棒的图,但之后再也无法复现同样的效果。同样的提示词,需求稍有不同,风格就完全变了。我想要更稳定的掌控感——不是模板,只是一些护栏。
于是我花了一周时间深入研究 Z-Image 的参考图像引导功能。不是因为它有多炫酷,而是因为它承诺了一件简单的事:在保留种子图像关键特征的同时,让模型自由探索。下面是我希望自己一开始就拥有的笔记——它实际用起来是什么感觉、在哪里会出问题,以及那些默默发挥最大作用的参数设置。

什么是参考图像引导
参考图像引导(有时称为 img2img 条件控制或参考条件控制)允许你在文本提示词的基础上,同时向模型输入一张真实图像。模型会将该输入图像作为锚点——根据你的参数设置,可以锁定风格、构图、色调或结构——同时继续响应你的文字描述。
实际操作中,我把 Z-Image 的参考图像当作”氛围定调器”。我不要求它包揽一切,而是用它来降低我在意的方面的随机性(姿态、色调、布局),让提示词处理其余部分。
与纯文本生图的区别
我用同一个提示词跑了两次——一次不加图像,一次加参考图。不加图像时,我得到了一批各有特色的结果:有的氛围感强,有的平淡,还有几张完全没法用。加入参考图像(一张我用手机拍的简单书桌场景)之后,模型保留了书桌的布局、柔和的日光感,甚至是木纹质感,同时换掉了我要求更换的物体。感觉并不像是被”锁死”了,而是被礼貌地约束住了。
纯文本提示词非常适合探索性创作。但当你需要可复现性时(活动物料变体、产品多角度、幻灯片视觉素材),参考图像能有效降低随机性。我在这里感受到脑力负担下降最明显:重跑次数少了,提示词调来调去的情况也少了。
参考图像的影响范围
参考图像可以影响不同层面:
- 全局构图:镜头角度、主体位置、负空间。
- 风格线索:光线、纹理密度、色温。
- 局部结构:轮廓、姿态、产品外形。
让我惊讶的是:即使我没有在文字中描述这些细节,参考图像的影响依然会显现。如果你的参考图有强烈的顶光,输出结果可能也会继承这一特征——除非你在提示词中加以平衡(例如”柔和的侧光,柔和的高光”)。
“强度”参数详解
不同系统对它的命名各不相同(strength、fidelity、guidance scale for image 等),但含义相近:数值越低,越贴近参考图;数值越高,越放开约束。如果你同时在调整文本的影响力,这篇关于 Z-Image CFG 最佳设置的分析与强度调整配合使用效果很好。

以下是我在大约 60 次生成中总结的各区间表现。实际效果因人因模型而异,但这条曲线的整体走势基本稳定。
0.2–0.4:强参考引导(保留原图)
在 0.2–0.4 区间,Z-Image 的参考图像就像未干的水泥。模型会保留构图、光线,甚至细小的纹理。即使我用文字说”把笔记本换成平板”,通常也能执行,但平板会出现在笔记本原来的位置。适合:
- 产品换色
- 小道具替换
- 标签或包装刷新
摩擦点:如果文字要求的结构性变化超出参考图所能支撑的范围,就会产生瑕疵。例如,在 0.3 的强度下,把同一姿态中的合盖笔记本换成开盖状态,我得到了扭曲的几何形状。遇到这堵墙时,我要么稍微调高强度,要么换一张姿态相近的参考图。
0.4–0.6:平衡区间
这是我的日常主力区间。在 0.5 强度下,模型保留场景的骨架,但细节的改写更加流畅。构图保持稳定,物体可以稍微移动,光线可以变柔或变暖。对于一组相关图像来说,这种一致性足够,又不会让所有东西看起来像复制粘贴。
有一个小技巧:在提示词中说明要保留什么。明确指定保留项(“保持书桌角度和日光:把杯子换成玻璃杯:加一株植物,浅景深”)比模糊的形容词效果好得多。中等强度 + 明确保留项的组合,超过了单纯调参。
0.6–0.8:弱引导(更具创意)
在这个区间,参考图变成了建议,而非规则。模型会自由改变镜头角度,添加或去除元素,有时还会更新风格。我在 0.7 时用于情绪板扩展——相同的氛围,全新的场景。大约 30–40% 的输出结果仍然能看出对原始色调的呼应。
注意事项:这个区间更容易忽略产品的细节特征(接口、针脚花纹),除非你在文字中加以强调,或提供更高分辨率的参考图。我曾在包包上发现奇怪的接缝,在设备上出现错误的斜角。可以修正,但值得仔细检查。
0.8–1.0:几乎忽略参考图
超过约 0.8 之后,我把参考图当成上次会议留下的一个提示。它可能认出颜色或大致轮廓,但仅此而已。有时这就够了:如果我只想要”保持温暖的木质感”,0.85 能做到,同时还能引入新的角度。
但在正式生产环节,我不会长时间停留在这里。这更接近纯文本生图,只带一点点微弱的引导。当我落到 0.9 时,往往是因为我选错了参考图,只想从中提取一点色调。通常更好的做法是换一张合适的参考图,回到 0.5。
API 实现
我用简单的 requests 配置和一个小型封装层测试了 API 调用。我倾向于从原始 HTTP 开始,因为这样能清楚地看到哪些是必要的,哪些是可选的噪音。
如果你刚接触参考条件控制,建议先浏览提供商文档,了解他们如何定义强度以及默认值是什么。关于类似工作流的背景知识,我发现 Hugging Face Diffusers 的 image-to-image 和 ControlNet 指南很有帮助。名称不同,理念相同。

传递”image”参数的方式
在我尝试过的大多数 API 中,参考图像可以通过以下方式传入:
- 公开 URL(原型验证最快,注意压缩问题)
- Base64 编码的 data URI(可靠,稍显冗长)
- Multipart 上传(适合本地文件,可控制 EXIF/画质)
我通常发送长边约 1024 px 的 PNG 或高质量 JPEG。太小会导致细节模糊;太大则浪费带宽,结果并不会更好。如果 A
PI 支持多张参考图,先从一张开始。同时叠加太多参考图容易互相抵消信号。
Python 代码示例
以下是我使用的最简模式,刻意写得简洁,方便你自行适配。将端点和密钥替换为你的提供商信息即可。
暂时无法在飞书文档外展示此内容
实际应用场景
风格迁移
我用一张干净的产品图作为参考,要求”工作室人像风格,胶片柔光,光晕,柔和过渡”。在 0.45 强度下,模型保留了产品的轮廓,将光线转化为电影质感,边缘没有变形。当我降到 0.25 时,它更贴近原始的工作室直打光——好看,但风格感没那么强。如果想要更大胆的风格,可以调向 0.6,并用 2–3 个具体风格词来强化。超过这个数量就会变成噪音。
产品图像变体
为了刷新一个落地页,我需要八张看起来像”同系列”而不是”克隆品”的角度图。我拍了一张整洁的场景,将它作为所有提示词的 Z-Image 参考图像。0.5 强度让我在各张图之间保持一致的颗粒感和白平衡,同时允许我旋转物体、加入手部、或更换背景道具。每张图节省的时间不算多(也许两分钟),但不再需要纠结”为什么这张和其他的感觉差这么多”,这种心理解脱是真实的。
概念图优化
概念图是参考引导默默发光的地方。我在 Figma 里草绘了一个布局——方框、箭头、简单标签——导出 PNG,将其作为参考图。在 0.4 强度下,我可以描述风格(“极简,柔灰线条,浅强调色”),模型会保留结构。这省去了一轮反复修改的过程。如果标签位置不对,我只需调整原始 Figma 文件重新跑一次,而不用费力调整提示词。
最佳实践
- 从干净的参考图开始。拉直画面,去除杂乱,校正曝光。模型复制的细节比你想象的更多。
- 根据任务选择强度。0.5 是安全的起点:往下调提高保真度,往上调加大探索空间。
- 告诉模型要保留什么。简短、明确的保留指令(“保持角度和色调”)能减少偏移。
- 分辨率匹配需求。长边约 1024 px 是大多数 API 的实用默认值。
- 小步迭代。每次只改一个变量(提示词微调或强度),这样才能看清因果关系。
- 调参时固定种子,后期再去掉以增加多样性。
- 注意累积偏差。如果你一直把上一次的输出作为下一次的参考,风格会逐渐固化。不时回到最初的参考图或中性基础图。
- 团队协作时,保存好三件套:参考图像、提示词文本和数值强度。未来的你会感谢现在的你。
如果你周围充斥着各种承诺魔法的工具,这个是更安静的那一种。它不替你做审美决策,只是稳住你的手。我在一个下午的工作中注意到这一点:同样的书桌,同样的光线,更少的犹豫。不是什么大时刻,但它留了下来。



