Z-Image Reference Image Guidance: Maintain the composition while changing the style

嗨，我是 Dora。你知道吗？我有时候能生成一张很棒的图，但之后再也无法复现同样的效果。同样的提示词，需求稍有不同，风格就完全变了。我想要更稳定的掌控感——不是模板，只是一些护栏。

于是我花了一周时间深入研究 Z-Image 的参考图像引导功能。不是因为它有多炫酷，而是因为它承诺了一件简单的事：在保留种子图像关键特征的同时，让模型自由探索。下面是我希望自己一开始就拥有的笔记——它实际用起来是什么感觉、在哪里会出问题，以及那些默默发挥最大作用的参数设置。

什么是参考图像引导

参考图像引导（有时称为 img2img 条件控制或参考条件控制）允许你在文本提示词的基础上，同时向模型输入一张真实图像。模型会将该输入图像作为锚点——根据你的参数设置，可以锁定风格、构图、色调或结构——同时继续响应你的文字描述。

实际操作中，我把 Z-Image 的参考图像当作”氛围定调器”。我不要求它包揽一切，而是用它来降低我在意的方面的随机性（姿态、色调、布局），让提示词处理其余部分。

与纯文本生图的区别

我用同一个提示词跑了两次——一次不加图像，一次加参考图。不加图像时，我得到了一批各有特色的结果：有的氛围感强，有的平淡，还有几张完全没法用。加入参考图像（一张我用手机拍的简单书桌场景）之后，模型保留了书桌的布局、柔和的日光感，甚至是木纹质感，同时换掉了我要求更换的物体。感觉并不像是被”锁死”了，而是被礼貌地约束住了。

纯文本提示词非常适合探索性创作。但当你需要可复现性时（活动物料变体、产品多角度、幻灯片视觉素材），参考图像能有效降低随机性。我在这里感受到脑力负担下降最明显：重跑次数少了，提示词调来调去的情况也少了。

参考图像的影响范围

参考图像可以影响不同层面：

全局构图：镜头角度、主体位置、负空间。
风格线索：光线、纹理密度、色温。
局部结构：轮廓、姿态、产品外形。

让我惊讶的是：即使我没有在文字中描述这些细节，参考图像的影响依然会显现。如果你的参考图有强烈的顶光，输出结果可能也会继承这一特征——除非你在提示词中加以平衡（例如”柔和的侧光，柔和的高光”）。

“强度”参数详解

不同系统对它的命名各不相同（strength、fidelity、guidance scale for image 等），但含义相近：数值越低，越贴近参考图；数值越高，越放开约束。如果你同时在调整文本的影响力，这篇关于 Z-Image CFG 最佳设置的分析与强度调整配合使用效果很好。

以下是我在大约 60 次生成中总结的各区间表现。实际效果因人因模型而异，但这条曲线的整体走势基本稳定。

0.2–0.4：强参考引导（保留原图）

在 0.2–0.4 区间，Z-Image 的参考图像就像未干的水泥。模型会保留构图、光线，甚至细小的纹理。即使我用文字说”把笔记本换成平板”，通常也能执行，但平板会出现在笔记本原来的位置。适合：

产品换色
小道具替换
标签或包装刷新

摩擦点：如果文字要求的结构性变化超出参考图所能支撑的范围，就会产生瑕疵。例如，在 0.3 的强度下，把同一姿态中的合盖笔记本换成开盖状态，我得到了扭曲的几何形状。遇到这堵墙时，我要么稍微调高强度，要么换一张姿态相近的参考图。

0.4–0.6：平衡区间

这是我的日常主力区间。在 0.5 强度下，模型保留场景的骨架，但细节的改写更加流畅。构图保持稳定，物体可以稍微移动，光线可以变柔或变暖。对于一组相关图像来说，这种一致性足够，又不会让所有东西看起来像复制粘贴。

有一个小技巧：在提示词中说明要保留什么。明确指定保留项（“保持书桌角度和日光：把杯子换成玻璃杯：加一株植物，浅景深”）比模糊的形容词效果好得多。中等强度 + 明确保留项的组合，超过了单纯调参。

0.6–0.8：弱引导（更具创意）

在这个区间，参考图变成了建议，而非规则。模型会自由改变镜头角度，添加或去除元素，有时还会更新风格。我在 0.7 时用于情绪板扩展——相同的氛围，全新的场景。大约 30–40% 的输出结果仍然能看出对原始色调的呼应。

注意事项：这个区间更容易忽略产品的细节特征（接口、针脚花纹），除非你在文字中加以强调，或提供更高分辨率的参考图。我曾在包包上发现奇怪的接缝，在设备上出现错误的斜角。可以修正，但值得仔细检查。

0.8–1.0：几乎忽略参考图

超过约 0.8 之后，我把参考图当成上次会议留下的一个提示。它可能认出颜色或大致轮廓，但仅此而已。有时这就够了：如果我只想要”保持温暖的木质感”，0.85 能做到，同时还能引入新的角度。

但在正式生产环节，我不会长时间停留在这里。这更接近纯文本生图，只带一点点微弱的引导。当我落到 0.9 时，往往是因为我选错了参考图，只想从中提取一点色调。通常更好的做法是换一张合适的参考图，回到 0.5。

API 实现

我用简单的 requests 配置和一个小型封装层测试了 API 调用。我倾向于从原始 HTTP 开始，因为这样能清楚地看到哪些是必要的，哪些是可选的噪音。

如果你刚接触参考条件控制，建议先浏览提供商文档，了解他们如何定义强度以及默认值是什么。关于类似工作流的背景知识，我发现 Hugging Face Diffusers 的 image-to-image 和 ControlNet 指南很有帮助。名称不同，理念相同。

传递”image”参数的方式

在我尝试过的大多数 API 中，参考图像可以通过以下方式传入：

公开 URL（原型验证最快，注意压缩问题）
Base64 编码的 data URI（可靠，稍显冗长）
Multipart 上传（适合本地文件，可控制 EXIF/画质）

我通常发送长边约 1024 px 的 PNG 或高质量 JPEG。太小会导致细节模糊；太大则浪费带宽，结果并不会更好。如果 API 支持多张参考图，先从一张开始。同时叠加太多参考图容易互相抵消信号。

Python 代码示例

以下是我使用的最简模式，刻意写得简洁，方便你自行适配。将端点和密钥替换为你的提供商信息即可。

暂时无法在飞书文档外展示此内容

实际应用场景

风格迁移

我用一张干净的产品图作为参考，要求”工作室人像风格，胶片柔光，光晕，柔和过渡”。在 0.45 强度下，模型保留了产品的轮廓，将光线转化为电影质感，边缘没有变形。当我降到 0.25 时，它更贴近原始的工作室直打光——好看，但风格感没那么强。如果想要更大胆的风格，可以调向 0.6，并用 2–3 个具体风格词来强化。超过这个数量就会变成噪音。

产品图像变体

为了刷新一个落地页，我需要八张看起来像”同系列”而不是”克隆品”的角度图。我拍了一张整洁的场景，将它作为所有提示词的 Z-Image 参考图像。0.5 强度让我在各张图之间保持一致的颗粒感和白平衡，同时允许我旋转物体、加入手部、或更换背景道具。每张图节省的时间不算多（也许两分钟），但不再需要纠结”为什么这张和其他的感觉差这么多”，这种心理解脱是真实的。

概念图优化

概念图是参考引导默默发光的地方。我在 Figma 里草绘了一个布局——方框、箭头、简单标签——导出 PNG，将其作为参考图。在 0.4 强度下，我可以描述风格（“极简，柔灰线条，浅强调色”），模型会保留结构。这省去了一轮反复修改的过程。如果标签位置不对，我只需调整原始 Figma 文件重新跑一次，而不用费力调整提示词。

最佳实践

从干净的参考图开始。拉直画面，去除杂乱，校正曝光。模型复制的细节比你想象的更多。
根据任务选择强度。0.5 是安全的起点：往下调提高保真度，往上调加大探索空间。
告诉模型要保留什么。简短、明确的保留指令（“保持角度和色调”）能减少偏移。
分辨率匹配需求。长边约 1024 px 是大多数 API 的实用默认值。
小步迭代。每次只改一个变量（提示词微调或强度），这样才能看清因果关系。
调参时固定种子，后期再去掉以增加多样性。
注意累积偏差。如果你一直把上一次的输出作为下一次的参考，风格会逐渐固化。不时回到最初的参考图或中性基础图。
团队协作时，保存好三件套：参考图像、提示词文本和数值强度。未来的你会感谢现在的你。

如果你周围充斥着各种承诺魔法的工具，这个是更安静的那一种。它不替你做审美决策，只是稳住你的手。我在一个下午的工作中注意到这一点：同样的书桌，同样的光线，更少的犹豫。不是什么大时刻，但它留了下来。

什么是参考图像引导

与纯文本生图的区别

参考图像的影响范围

“强度”参数详解

0.2–0.4：强参考引导（保留原图）

0.4–0.6：平衡区间

0.6–0.8：弱引导（更具创意）

0.8–1.0：几乎忽略参考图

API 实现

传递”image”参数的方式

Python 代码示例

实际应用场景

风格迁移

产品图像变体

概念图优化

最佳实践

相关文章

Claude Code源码泄露：BUDDY、KAIROS及所有隐藏功能全解析

什么是Claude Mythos？泄露信息、Capybara等级及Anthropic官方确认内容

什么是 Claw Code？Claude Code 重写详解

Qwen3.5-Omni 是什么：功能、版本与 API 访问指南

PixVerse V6 Extend 现已登陆WaveSpeedAI

PixVerse V6图生视频现已登陆WaveSpeedAI