Z-Image参照画像ガイダンス：スタイルを変えながら構図を維持する

こんにちは、Doraです。こんなことはありませんか？一度素晴らしいビジュアルを生成できたのに、後で同じものを再現できない。同じプロンプトなのに、少し異なるニーズで、まったく違う雰囲気になってしまう。テンプレートではなく、もう少し安定した手がかり、つまりガイドラインが欲しかったのです。

そこで1週間、Z-Imageのリファレンス画像ガイダンスを深く試してみました。派手だからではなく、シンプルな約束をしてくれているからです。シード画像から重要な要素を保ちながら、モデルが自由に探索できる仕組みです。以下は、最初から持っておきたかったメモです。実際の使い心地、うまくいかない場面、そして最も効果を発揮した地味な設定についてまとめました。

リファレンス画像ガイダンスとは

リファレンス画像ガイダンス（img2imgコンディショニングやリファレンスコンディショニングとも呼ばれる）とは、テキストプロンプトと一緒に実際の画像をモデルに入力できる機能です。モデルはその入力画像をアンカーとして使用し、設定次第でスタイル、構図、カラーパレット、または構造を参照しながら、テキストの指示にも従います。

実際には、Z-Imageのリファレンス画像を「トーンセッター」として扱っています。すべてをこなさせようとはしません。気になる部分のばらつきを減らす（ポーズ、パレット、レイアウト）ために使い、残りはプロンプトに任せます。

純粋なテキストから画像への生成との違い

同じプロンプトを2通りで試しました。画像なし、そしてリファレンスあり。画像なしでは、さまざまな結果が出ました。雰囲気のあるもの、平凡なもの、使えないものなど。スマートフォンで撮ったシンプルなデスクの写真をリファレンス画像として追加すると、モデルはデスクのレイアウト、柔らかな昼光、さらには木目の質感まで保ちながら、指示した物体を入れ替えてくれました。「ロックされた」感じではなく、「丁寧に制約されている」感じでした。

純粋なテキストは探索に最適です。しかし、再現性が必要なとき（キャンペーンのバリエーション、製品の角度、スライドのビジュアル）には、リファレンス画像がランダム性を抑えてくれます。ここで精神的な負担が最も軽減されました。やり直しが減り、プロンプトをこねくり回す必要も減りました。

リファレンス画像の影響範囲

リファレンスはさまざまな層に影響を与えます。

グローバルな構図：カメラアングル、被写体の配置、ネガティブスペース。
スタイルの手がかり：ライティング、テクスチャの密度、色温度。
ローカルな構造：シルエット、ポーズ、製品の輪郭。

驚いたこと：リファレンス画像の影響は、テキストでその詳細を記述していなくても現れます。リファレンスに強いトップライトがあれば、プロンプトで打ち消さない限り（例：「柔らかなサイドライティング、控えめなハイライト」）、その要素が出力に引き継がれることがあります。

「Strength（強度）」パラメータの詳細説明

システムによって名前は異なります（strength、fidelity、画像のguidance scaleなど）。意味は似ています。低い値はリファレンスに強く引き寄せられ、高い値はその拘束が緩みます。テキストの影響も調整する場合は、強度の調整と相性の良いZ-Image CFGのベスト設定を参照してください。

以下は、約60回の生成を通じた各範囲の挙動です。モデルによって差はありますが、カーブの形は概ね一定しています。

0.2〜0.4：強いリファレンスガイダンス（元の画像を維持）

0.2〜0.4では、Z-Imageのリファレンス画像は濡れたセメントのように機能します。モデルは構図、ライティング、細かいテクスチャまで保ちます。「ノートをタブレットに変える」とテキストで指示しても、タブレットはノートがあった場所にほぼそのまま配置されます。以下に適しています。

製品のカラースワップ
小道具の微細な変更
ラベルやパッケージのリフレッシュ

難点：リファレンスが対応できない構造的な変更をテキストで要求すると、アーティファクトが生じます。例：閉じたノートパソコンを同じポーズで開いたものに変えようとしたところ、0.3では歪んだジオメトリになりました。この壁にぶつかったときは、強度を少し上げるか、互換性のあるポーズのリファレンスに切り替えます。

0.4〜0.6：バランスゾーン

これが日常的な設定でした。0.5では、モデルはシーンの骨格を保ちながら、細部をより自然に書き換えます。構図は維持され、物体は少し動けて、ライティングは柔らかく暖かくなれます。すべてがクローンに見えることなく、関連する画像セットとして十分な一貫性が得られます。

役立ったこと：何を保つかを明示すること。「デスクのアングルと昼光を保ち、マグカップをガラスのタンブラーに替え、植物を追加、浅い被写界深度」のようなプロンプトでより良い結果が得られました。中程度の強度＋明示的な保持指示の組み合わせは、漠然とした形容詞より効果的でした。

0.6〜0.8：弱いガイダンス（よりクリエイティブ）

ここでは、リファレンスはルールではなく提案になります。モデルはカメラアングルを自由に変え、要素を追加・削除し、スタイルを更新することもあります。0.7はムードボードの展開に使いました。同じ雰囲気、新しい部屋。出力の30〜40%程度は元のパレットを踏襲していました。

注意点：この範囲では、小さな製品の特徴（ポート、ステッチパターン）をテキストで補強するか、高解像度のリファレンスを使わないと誤認識しやすくなります。バッグの奇妙な縫い目やデバイスの間違ったベベルに気づきました。修正可能ですが、確認が必要です。

0.8〜1.0：リファレンス画像をほぼ無視

0.8以上では、リファレンスは過去のミーティングからのヒントとして扱います。色や大まかなシルエットを認識するかもしれませんが、それ以上ではありません。それで十分なこともあります。「暖かくウッド感を残す」だけが目的なら、0.85で新しいアングルを招待しながらそれを実現できます。

ただし、制作業務ではここに長く留まりません。純粋なテキスト生成に小さなヒントを加えた程度です。0.9になっているときは、仕事に合わないリファレンスを選んでしまい、パレットだけを引き出そうとしていることが多いです。たいていの場合、より良いリファレンスを選んで0.5に戻る方が良い結果になります。

API実装

シンプルなrequestsセットアップと小さなラッパーを使ってAPIコールをテストしました。生のHTTPから始めるのが好きです。実際に何が必要で、何がオプションのノイズかが見えてくるからです。

リファレンスコンディショニングを初めて使う場合は、プロバイダーのドキュメントでstrengthの定義とデフォルト値を確認することをお勧めします。同様のワークフローの背景として、Hugging Face Diffusersのimage-to-imageとControlNetのガイドが参考になりました。名前は違いますが、考え方は同じです。

「image」パラメータの渡し方

試したほとんどのAPIでは、リファレンス画像を以下のいずれかで渡せます。

公開URL（プロトタイプに最速、圧縮に注意）
base64エンコードされたデータURI（信頼性が高く、少し冗長）
マルチパートアップロード（ローカルファイルに適している、EXIF/品質を制御できる）

通常、長辺1024px程度のPNGまたは高品質JPEGを送ります。小さすぎると詳細が失われ、大きすぎると帯域幅の無駄になり良い結果も得られません。APIが複数のリファレンス画像をサポートしている場合でも、1枚から始めましょう。一度に多くのリファレンスを重ねると、シグナルが打ち消し合う可能性があります。

Pythonコード例

以下は私が使用した最小限のパターンです。意図的にシンプルにしているので、自由に応用してください。エンドポイントとキーはご自身のプロバイダーのものに置き換えてください。

暂时无法在飞书文档外展示此内容

実践的な応用シナリオ

スタイル転送

クリーンな製品写真をリファレンスとして使い、「柔らかなフィルムスタイルのスタジオポートレート、ハレーション、ジェントルなフォールオフ」と指示しました。0.45では、モデルは製品のシルエットを保ちながら、エッジを歪めることなくライティングをシネマティックに変えてくれました。0.25まで下げると、元のスタジオの光沢が強く残り、きれいですが、スタイルの変化は少なくなりました。より大胆なスタイルが欲しい場合は0.6に近づけ、2〜3個の具体的なスタイルキューで補強してください。それ以上はノイズになります。

製品画像のバリエーション

ランディングページのリフレッシュに、クローンではなくきょうだいのような8つのアングルが必要でした。1つの整ったセットアップを撮影し、すべてのプロンプトの**Z-Image**リファレンス画像として使用しました。強度を0.5に設定することで、物体を回転させたり、手を追加したり、背景の小道具を変えたりしながら、一貫したグレインとホワイトバランスを全ショットで保てました。1枚あたりの時間節約は大きくはありませんでしたが（おそらく2分程度）、「なぜこれだけ違うのか？」という悩みから解放される精神的な楽さは本物でした。

概念図の洗練

図はリファレンスガイダンスが静かに輝く場所です。Figmaでレイアウトをスケッチし（ボックス、矢印、大まかなラベル）、PNGとしてエクスポートして、それをリファレンスとして使いました。強度を0.4にすることで、スタイルを説明（「ミニマル、柔らかなグレーの線、ライトアクセントカラー」）しながら、モデルが構造を保ってくれました。編集の往復を一巡分削減できました。ラベルがずれた場合は、プロンプトと格闘するのではなく、元のFigmaファイルを調整して再実行しました。