← ブログ

Z-Image CFGセットアップガイド:過飽和と露出過多の問題を避ける方法

Z-Image-BaseのCFG(guidance_scale)の最適設定:推奨範囲は3.5〜6です。CFGが高すぎると過飽和の問題が発生します。スタイルによって推奨されるCFGの値は異なります。

1 min read
Z-Image CFGセットアップガイド:過飽和と露出過多の問題を避ける方法

今週、なんとなく「うるさい」と感じる画像が続きました。色が派手で、ハイライトが飛んで、被写体は合っていても雰囲気がプロンプトと合わない。その小さなストレスがきっかけで、コーヒーを片手にZ-Image-Baseで静かにテストを繰り返しました。同じプロンプト、同じシード、CFGの値だけ変えながら、パターンが手に馴染むまで。

私はDoraです。このZ-Image CFG設定ガイドは、そのテストの結果と、過去の拡散モデルとの作業メモをまとめたものです。特定の設定を売り込みたいわけではありません。何が変わったのか、なぜそうなるのか、そしてどこを少し調整すれば作業が軽くなるのかをお伝えしたいのです。

CFGとは何か

CFGが画像生成に与える影響

Classifier-Free Guidance(CFG)は、モデルがプロンプトに従う強さと、自身が学習した事前知識のどちらを優先するかを調整するダイヤルです。CFGが低いとモデルは自由に発散し、高いと言葉に引き寄せられます。実際には、聞こえるほど神秘的ではありません。「もっとゆるく」「台本通りに」と指示を出す監督のようなものだと思っています。

同じプロンプト(「柔らかい朝の光、木製のデスクの上のセラミックマグ、浅い被写界深度」)でCFGを1から9まで変化させると、変化は一貫していました。

  • 低CFG(1〜3):雰囲気のあるばらつき、柔らかいコントラスト、予想外のテクスチャ。マグが石器風になったり、光が寒色寄りになったりすることも。間違いではなく、解釈的な表現。
  • 中CFG(3.5〜6):画像が安定し、構図が保たれ、脆くなることなくプロンプトと細部が一致。ここで肩の力が抜けました。
  • 高CFG(7以上):被写体の再現性は高いが、色の彩度とマイクロコントラストが急上昇。ハイライトがより頻繁に飛ぶ。一見インパクトがあるが、見続けると疲れる。

正式な裏付けが欲しい方には、Jonathan HoとTim SalimansによるオリジナルのClassifier-Free Guidanceの論文が仕組みを説明しています。CFGは条件付き予測と無条件予測の差をスケーリングし、サンプルの忠実度と多様性のトレードオフを制御します。

CFG値とプロンプト遵守の関係

CFGを上げるとプロンプトへの遵守度は上がりますが、トレードオフがあります。

  • 曖昧なプロンプトは修正されません。CFG 8でぼんやりしたプロンプトは、ただうるさくなるだけです。
  • スタイルと戦うような字義通りの解釈を強制することがあります。高ガイダンスでは、要求していないのに「光沢感」が忍び込むことがありました。モデルが過剰に発音しているような感覚です。
  • ネガティブプロンプトと相互作用します。「ハイライトの飛び、過彩度なし」は高CFGをある程度和らげましたが、単純にダイヤルを下げる方が効果的でした。

私の結論:CFGは良いプロンプトを「調整」するために使うものであり、薄いプロンプトを救済するためではありません。スイートスポットは、色と照明が演劇的にならずに遵守度が上がる場所です。

Z-Image-BaseのCFG推奨範囲

低CFG(1〜3):よりランダムで、よりクリエイティブ

Z-Image-BaseでCFG 2に設定すると、心地よい、ほぼフィルム的な柔らかさが得られました。エッジは厳しくなく、小さなアーティファクトはプラスチック光沢ではなくグレインに溶け込みました。この範囲が役立った場面:

  • 雰囲気重視のシーン:霧、夕暮れ、ボケ、水彩風のレンダリング。
  • 初期のアイデア出し:精度ではなく可能性が欲しいとき。低CFGは1つのシードから3つの説得力ある方向性を与えてくれました。

ぶつかった限界:

  • 構図のドリフト:小道具が迷子になり、フレーミングがずれ、手がぐらついた。
  • プロンプトの具体的な詳細(ブランド、物の数)が抜け落ちた。

ビジュアル言語を探っているときや気分ボードを作るときは、低CFGは穏やかで生成的です。ブリーフに合わせなければならない締め切りがある場合は、おそらく緩すぎます。

中CFG(3.5〜6):バランスポイント(4.5推奨)

これが私のテストで最も安定したゾーンでした。4.5では、Z-Image-Baseは光沢を出さずに協調的に感じられました。フィールドノートをいくつか:

  • 色が落ち着いた。肌の色調がネオン寄りになるのが止まった。木は木のように見え、ラッカーのようではなかった。
  • 照明は表現豊かなままで飛ばなかった。白いシャツはテクスチャを保った。
  • プロンプトが形を保った:「カップ2つ」と頼めば、ほとんどの場合2つのカップが得られた。

4.5を出発点として推奨する理由:

  • スタイルの余地を残しながらプロンプトの意図を捉えた。
  • 小さなネガティブプロンプト(例:「過剰な彩度、プラスチック光沢」)とよく合った。
  • プロンプトあたり6つのシードで、バリエーションは混沌とせず有用なままだった。

エッジケース:

  • 非常に技術的な製品レンダリングでは、エッジを仕上げるためにもう少し高い設定(5〜5.5)が必要なことがあった。
  • 絵画風テクスチャはここでも問題なかったが、3.5〜4の方がより良く開花することもあった。

高CFG(7以上):過彩度のリスク

7〜9まで押し上げて、どこで壊れるか確認しました。壊れませんでしたが、叫び始めました。

  • サムネイルを引きつけるような形で彩度が上がるが、文脈の中で見ると疲れてくる。
  • スペキュラーハイライトが厳しくなった。金属は派手で、肌はろう人形のようになった。
  • フラットなフィールドにノイズパターンが現れた。モデルが過度に頑張っているような感じ。

高CFGに用途はあるのか?いくつかあります:

  • ニュアンスより目立つことが重要なサムネイル向けアセット。
  • タイトなブランドの制約がある場合、後処理で色を抑えて露出に注意するなら。

しかし「プラスチック効果」や後処理で修正しきれない明るいスピルが出ているなら、修正を重ねる前にダイヤルを下げてください。私のテストでは、7.5から5に下げるだけで、どんなネガティブプロンプトリストよりも多くの問題が解決しました。

よくある問題の診断

画像の過彩度 / 色が明るすぎる

私が見たもの:赤やティールが突き抜け、グラデーションがバンディングし、全体的な画像がHDR的な感じになった。

考えられる原因:CFGが強すぎる、時にコントラストが強いサンプラーとの組み合わせ。

効果があったもの:

  • まずCFGを1〜2ポイント下げる。シンプルな勝利。
  • 軽いネガティブを追加:「過彩度、カラークリッピング」。CFGの変更を補完するが、置き換えにはならない。
  • 可能であれば、コントラストの強い後処理を減らすか、ミッドトーンをより良く保存するサンプラーに切り替える。

作業への影響:アセットがページ上の実写真の隣に自然と馴染み始めた。後処理での色の格闘が減った。

画像の露出過多 / ハイライトのオーバーフロー

私が見たもの:白いシャツの織り目が消え、窓がポータルのように輝いた。ヒストグラムが右に偏った。

考えられる原因:「明るい」や「日光の当たった」というプロンプトに制約なしで高CFGが加わった。

効果があったもの:

  • CFGを4〜5の範囲に下げる。
  • 明示的に指定する:「柔らかい拡散光」、「ハイライトの詳細を維持」、または「ハイライトの飛びなし」。
  • プロンプトで露出を調整(「曇り空」は予想以上の効果があった)。ツールが許すなら、ガイダンスだけで戦うより露出/コントラストをわずかに下げる。

結果:スペキュラーは残ったが、テクスチャを伴った。画像がショールームのレンダリングより、カメラらしく見えた。

ディテールの喪失 / プラスチック効果

私が見たもの:肌がろう人形のように見え、布地が滑らかなグラデーションになり、マイクロテクスチャが消えた。

考えられる原因:高CFGと「光沢感」、「シネマティックライティング」、「超高精細」などのスタイルタームの組み合わせが逆説的に表面を平滑化した。

効果があったもの:

  • CFGを約4.5に下げる。
  • 「超高精細」を具体的なテクスチャキューに置き換える:「細かいリネン織り」、「微細な毛穴」、「マット仕上げ」。
  • 「プラスチック、ろう人形、エアブラシ」などのネガティブを追加。

実際の効果:最初のパスでの時間節約にはならなかったが、数枚の画像の後、精神的な労力が減ったことに気づいた。再生成が減った。「なぜこれは偽物っぽく見えるの?」という瞬間が減った。

スタイル別のCFG提案

リアルな写真:CFG 4〜5

フォトリアルなプロンプトには、4〜5が「設定してそのまま」に最も近い感覚でした。ポートレート、デスクシーン、シンプルな料理写真でこの範囲を使いました。4.5では、肌のテクスチャが保たれ、影が潰れず、レンズが自然に見えました。

役立つ調整:

  • 人間が語るような照明を要求する:「窓光、北向き、曇り空」。
  • 小さなネガティブを使う:「過彩度、プラスチックな肌」。
  • 構図の表現はシンプルに:「35mm、f/2.8、ウエストアップ」。過度に装飾的なプロンプトはスタイルを強く押し、リアリズムと戦う。

向いている人:生成画像を実写と組み合わせるマーケターやクリエイター。目立ちすぎずにブランドページに馴染む。

イラストスタイル:CFG 5〜7

イラストはもう少し多めのガイダンスを好みました。5.5〜6.5では、線画がまとまり、パレットがネオンにならずに意図的でした。

役立つ調整:

  • 画材を具体的に:「グアッシュウォッシュ」、「インクライン」、「シルクスクリーンテクスチャ」。ガイダンスがそのアイデアに固定される。
  • 色が叫ぶなら、CFGを下げてパレットキューを固定する(「落ち着いたアーストーン」、「限られたパレット」)。
  • コンセプトシートでは、フレーム間のバリエーションを促すために3.5まで下げる。

向いている人:一貫したビジュアルシステム、アプリ、ドキュメント、または教育教材を構築するチームで、スタイルの一貫性がフォトリアルなテクニックより重要な場合。

CFGと他のパラメーターの協調

CFGは単独では機能しません。私が繰り返し気づいたいくつかの相互作用があります:

  • サンプラーとステップ数:ステップ数を増やすと、高CFGのアーティファクトがやや和らぐことがあったが、余分な時間を正当化するほどではなかった。ステップ数を増やすよりCFGを下げる方が良い結果が得られた。
  • 解像度:高CFGでのアップサイジングはプラスチック光沢を誇張した。大きなアウトプットが必要な場合は、CFGを中程度(約4.5)に保ち、別のアップスケーラーにディテールを処理させた。
  • ネガティブプロンプト:調味料であり、救済ではない。小さく的を絞ったリストが最も効果的:「過彩度、ろう人形肌、ハイライトの飛び」。長いリストは画像を鈍らせた。
  • スタイルトークン:強いスタイルキュー(「スタジオストロボ、光沢のある雑誌」)を含めると、高CFGのインパクトが増幅されることを予期してください。スタイルの表現を和らげるか、CFGを下げるかのどちらかです。
  • シードとバリエーション:4.5で3つのシードを走らせる方が、7で1つのシードより使えるオプションが多かった。前者は選択肢のような感覚、後者は修正作業のような感覚。

深い理由を知りたい方へ:拡散モデルにおけるClassifier-Free Guidance手法は、条件付き予測と無条件予測の差を効果的にスケーリングします。強く押しすぎると、シグナルだけでなくノイズや高コントラスト表現へのバイアスも増幅されます。良い入門資料として:Classifier-Free Guidanceの原論文とDiffusersのGuidance_scaleノート。私が観察したことと一致しています。ガイダンスは誘導するために使うもので、強制するためではありません。

これらすべては、私が今実践している小さなルーティンに集約されます:CFG 4.5から始め、2つのシードを走らせ、何が問題かを言語化できる場合(明るすぎる、光沢が強すぎる、曖昧すぎる)にのみダイヤルを動かします。静かな作業ですが、後からモデルと格闘せずに済みます。これをワークフローやAPIパイプラインに組み込んでいる場合は、この短いZ-Image-Base APIガイドでguidance_scaleがどこに位置し、どのようにクリーンに渡すかを確認できます。