Guide de configuration CFG pour Z-Image : Éviter la sur-saturation et la surexposition

Cette semaine, je n’arrêtais pas d’obtenir des images qui semblaient un peu… criardes. Les couleurs étaient vives, les hautes lumières saturées, et l’ambiance ne correspondait pas à mon prompt, même quand le sujet, lui, correspondait. Cette petite friction m’a poussée à m’asseoir avec mon café pour mener une série tranquille de tests sur Z-Image-Base — mêmes prompts, mêmes seeds, différentes valeurs de CFG — jusqu’à ce que les tendances me paraissent évidentes.

Je m’appelle Dora. Ce guide de réglage CFG pour Z-Image est le fruit de ces sessions, complétées par des notes issues de travaux passés avec des modèles de diffusion. Je ne suis pas là pour vous vendre un réglage. Je suis là pour vous montrer ce qui a changé pour moi, pourquoi c’est probablement ainsi, et où un petit ajustement peut rendre le travail plus léger plutôt que plus bruyant.

Qu’est-ce que le CFG

L’influence du CFG sur la génération d’images

Le Classifier-Free Guidance (CFG) est le curseur qui détermine dans quelle mesure le modèle doit suivre votre prompt par rapport à ses propres priors appris. Un CFG faible laisse le modèle vagabonder ; un CFG élevé le rapproche de vos mots. En pratique, c’est moins mystique que ça en a l’air. Je l’imagine comme un réalisateur qui donne des indications : « Plus souple » ou « restez dans le script. »

Lorsque j’ai balayé le CFG de 1 à 9 sur des prompts identiques (« douce lumière matinale, tasse en céramique sur un bureau en bois, faible profondeur de champ »), les changements étaient cohérents :

CFG faible (1–3) : variance plus feutrée, contraste plus doux, textures plus inattendues. Parfois la tasse devenait en grès ou la lumière se teintait de plus de fraîcheur. Pas mauvais, juste interprétatif.
CFG moyen (3,5–6) : les images se stabilisaient, la composition tenait, et les détails correspondaient au prompt sans devenir fragiles. C’est là que mes épaules se sont relâchées.
CFG élevé (7+) : la conformité au sujet restait haute, mais la saturation des couleurs et le micro-contraste montaient en flèche. Les hautes lumières se coupaient plus souvent. Ça paraissait percutant au premier coup d’œil, puis fatigant.

Pour une référence formelle, l’article original sur le Classifier-Free Guidance de Jonathan Ho et Tim Salimans explique le mécanisme : le CFG met à l’échelle la différence entre les prédictions conditionnelles et inconditionnelles pour arbitrer entre fidélité et diversité des échantillons.

La relation entre la valeur CFG et la conformité au prompt

Un CFG plus élevé augmente la conformité au prompt, mais avec des compromis :

Il ne corrige pas les prompts vagues. Un prompt flou à CFG 8 reste flou, juste plus fort.
Il peut imposer un littéralisme qui se bat contre le style. À guidage élevé, j’ai vu « brillant » s’insinuer même quand je ne le demandais pas, comme si le modèle sur-articulait.
Il interagit avec les prompts négatifs. « Pas de hautes lumières soufflées, pas de sursaturation » a légèrement amorti le CFG élevé, mais pas aussi bien que simplement baisser le curseur.

Ma conclusion : utilisez le CFG pour « ajuster » un bon prompt, pas pour sauver un prompt pauvre. La zone idéale se situe généralement là où la conformité augmente sans que les couleurs et l’éclairage ne deviennent théâtraux.

Plage recommandée pour le CFG de Z-Image-Base

CFG faible (1–3) : Plus aléatoire, plus créatif

Quand j’étais à CFG 2 sur Z-Image-Base, j’obtenais une douceur agréable, presque filmique. Les bords étaient moins stricts, et les petits artefacts se fondaient dans le grain plutôt qu’en un rendu plastique. Cette plage aidait pour :

Les scènes axées sur l’atmosphère : brume, crépuscule, bokeh, rendus quasi aquarellés.
L’idéation précoce : je voulais des possibilités, pas de la précision. Le CFG faible m’offrait trois directions crédibles à partir d’un seul seed.

Limites rencontrées :

Dérive de composition : les accessoires se déplaçaient, le cadrage changeait, les mains devenaient instables.
Les détails spécifiques au prompt (marque, nombre d’objets) glissaient.

Si vous faites du mood-boarding ou explorez un langage visuel, un CFG faible est doux et générateur. Si vous êtes dans les délais pour correspondre à un brief, c’est probablement trop lâche.

CFG moyen (3,5–6) : Point d’équilibre (recommandé : 4,5)

C’était la zone la plus fiable dans mes tests. À 4,5, Z-Image-Base semblait coopératif sans devenir brillant. Quelques notes de terrain :

Les couleurs se stabilisaient. Les teintes de peau cessaient de virer au néon. Le bois ressemblait à du bois, pas à du laqué.
L’éclairage restait expressif sans saturer. Les chemises blanches conservaient leur texture.
Les prompts tenaient la forme : si je demandais « deux tasses », j’obtenais deux tasses la plupart du temps.

Pourquoi je recommande 4,5 comme point de départ :

Il capturait l’intention du prompt tout en laissant de la place au style.
Il s’associait bien à de petits prompts négatifs (ex. : « trop saturé, brillant plastique »).
Sur six seeds par prompt, la variation restait utile, pas chaotique.

Cas limites :

Les rendus produits très techniques voulaient parfois un cran plus haut (5–5,5) pour bien définir les bords.
Les textures picturales semblaient bien ici mais s’épanouissaient parfois mieux à 3,5–4.

CFG élevé (7+) : Risque de sursaturation

J’ai poussé entre 7 et 9 pour voir où les choses se brisaient. Elles ne se sont pas brisées, mais elles ont crié.

La saturation montait d’une façon qui accrochait la miniature puis me fatiguait en contexte.
Les reflets spéculaires devenaient durs. Les métaux étaient clinquants, la peau devenait cireuse.
Des motifs de bruit apparaissaient dans les aplats, comme si le modèle forçait trop.

Y a-t-il des usages pour un CFG élevé ? Quelques-uns :

Les assets « thumbnail-first » où l’impact visuel compte plus que la nuance.
Les contraintes de marque strictes, si vous domptez aussi la couleur en post-production et surveillez l’exposition.

Mais si vous obtenez un « effet plastique » ou des hautes lumières débordantes que vous ne pouvez pas corriger, baissez le curseur avant d’accumuler les correctifs. Dans mes tests, passer de 7,5 à 5 a résolu davantage de problèmes que n’importe quelle liste de prompts négatifs.

Diagnostic des problèmes courants

Sursaturation / couleurs trop vives

Ce que j’ai observé : les rouges et les bleu-vert perçaient, les dégradés se striaient, et l’ensemble de l’image semblait proche du HDR.

Cause probable : le CFG pousse trop fort, parfois combiné avec des samplers à fort contraste.

Ce qui a aidé :

Baisser le CFG de 1 à 2 points en premier. Des gains simples.
Ajouter un négatif léger : « oversaturated, color clipping. » Ça a orienté, mais n’a pas remplacé le changement de CFG.
Si disponible, réduire le post-traitement contrasté ou passer à un sampler qui préserve mieux les tons moyens.

Lien avec le travail : les assets ont commencé à mieux s’intégrer aux vraies photos sur une page. J’ai arrêté de me battre avec la couleur en post-production.

Surexposition / débordement des hautes lumières

Ce que j’ai observé : les chemises blanches perdaient leur trame ; les fenêtres brillaient comme des portails. Les histogrammes s’entassaient à droite.

Cause probable : CFG élevé combiné à des prompts « lumineux » ou « ensoleillés » sans contraintes.

Ce qui a aidé :

Baisser le CFG dans la plage 4–5.
Être explicite : « lumière douce et diffuse », « conserver le détail des hautes lumières », ou « pas de hautes lumières soufflées ».
Orienter l’exposition via le prompt (« couvert » a fait plus que je ne l’espérais). Si l’outil le permet, réduire légèrement l’exposition/le contraste ailleurs plutôt que de se battre avec le guidage seul.

Résultat : les reflets spéculaires restaient présents, mais avec de la texture. L’image ressemblait plus à une photo d’appareil, moins à un rendu de showroom.

Perte de détails / effet plastique

Ce que j’ai observé : la peau avait un aspect cireux, le tissu se transformait en dégradés lisses, la micro-texture disparaissait.

Cause probable : une combinaison de CFG élevé et de termes de style comme « brillant », « éclairage cinématique » ou « ultra-détaillé » qui aplatissent paradoxalement les surfaces.

Ce qui a aidé :

Baisser le CFG à environ 4,5.
Remplacer « ultra-détaillé » par des repères de texture concrets : « tissage fin en lin », « pores subtils », « finition mate ».
Ajouter un négatif comme « plastic, waxy, airbrushed. »

En pratique : ça ne m’a pas économisé de temps au premier passage, mais après quelques images, j’ai remarqué que ça réduisait l’effort mental. Moins de re-rolls. Moins de moments « pourquoi est-ce que ça a l’air faux ? »

Suggestions de CFG pour différents styles

Photographie réaliste : CFG 4–5

Pour les prompts photo-réalistes, 4–5 était le plus proche d’un réglage « paramétrer et oublier ». J’ai utilisé cette plage pour des portraits, des scènes de bureau et de simples photos culinaires. À 4,5, la texture de la peau tenait, les ombres n’étaient pas écrasées, et les objectifs semblaient crédibles.

Ajustements utiles :

Décrire l’éclairage comme le ferait un humain : « lumière de fenêtre, orientation nord, ciel couvert. »
Utiliser de petits négatifs : « oversaturated, plastic skin. »
Garder les termes de composition simples : « 35mm, f/2,8, cadrage à mi-corps. » Les prompts trop ornés poussaient trop fort le style et se battaient contre le réalisme.

À qui ça convient : aux marketeurs et créateurs qui mélangent images générées et photographie réelle. Ça s’intègre dans les pages de marque sans crier.

Style illustration : CFG 5–7

L’illustration aimait un peu plus de guidage. À 5,5–6,5, les traits se maintenaient et les palettes étaient intentionnelles sans virer au néon.

Ajustements utiles :

Être précis sur le médium : « lavis de gouache », « trait encré », « texture sérigraphique ». Le guidage se verrouille alors sur cette idée.
Si les couleurs crient, baisser le CFG et ancrer les repères de palette (« tons terreux atténués », « palette limitée »).
Pour les planches de concepts, descendre aussi bas que 3,5 pour encourager la variation entre les cadres.

À qui ça convient : aux équipes construisant des systèmes visuels cohérents pour des applications, de la documentation ou du matériel pédagogique — là où la cohérence de style l’emporte sur les astuces photoréalistes.

Coopération du CFG avec d’autres paramètres

Le CFG ne travaille pas seul. Quelques interactions revenaient régulièrement pour moi :

Sampler et étapes : avec plus d’étapes, les artefacts liés à un CFG élevé s’atténuaient parfois, mais pas suffisamment pour justifier le temps supplémentaire. J’obtenais de meilleurs résultats en baissant le CFG qu’en augmentant les étapes.
Résolution : l’agrandissement à CFG élevé exagérait le rendu plastique brillant. Quand j’avais besoin de grandes sorties, je gardais le CFG modéré (≈4,5) et laissais un upscaler séparé gérer les détails.
Prompts négatifs : ils sont un assaisonnement, pas un sauvetage. Une petite liste ciblée fonctionnait le mieux : « oversaturated, waxy skin, blown highlights. » Les longues listes ternissaient l’image.
Tokens de style : si vous incluez de forts repères de style (« strobe de studio, magazine brillant »), attendez-vous à ce qu’ils amplifient l’impact d’un CFG élevé. Adoucissez soit le langage de style, soit baissez le CFG.
Seeds et variation : lancer trois seeds à 4,5 m’a donné plus d’options utilisables qu’un seed à 7. Le premier donnait le sentiment d’un choix ; le second, celui d’une correction.

Pour comprendre le pourquoi en profondeur, la méthode Classifier-Free Guidance dans les modèles de diffusion met effectivement à l’échelle la différence entre les prédictions conditionnelles et inconditionnelles. Poussez-la trop loin et vous amplifiez non seulement le signal mais aussi le bruit et le biais vers des représentations à fort contraste. Bonnes références : l’article original sur le Classifier-Free Guidance et les notes sur guidance_scale dans Diffusers. Elles correspondent à ce que j’ai observé — utilisez le guidage pour orienter, pas pour forcer.

Tout cela se résume à une petite pratique que je suis désormais : je commence à CFG 4,5, lance deux seeds, et ne bouge le curseur que si je peux nommer ce qui ne va pas (trop lumineux, trop brillant, trop vague). C’est un travail tranquille, mais ça m’évite de me battre avec le modèle plus tard. Si vous intégrez cela dans un flux de travail ou un pipeline API, ce court guide de l’API Z-Image-Base montre où se situe guidance_scale et comment le passer proprement.