Z-Image CFG-Einrichtungsanleitung: Übersättigung und Überbelichtung vermeiden

Diese Woche bekam ich immer wieder Bilder, die sich ein bisschen… aufdringlich anfühlten. Die Farben waren grell, die Lichter ausgebrannt, und die Stimmung passte nicht zu meinem Prompt – selbst wenn das Motiv stimmte. Diese kleine Reibung brachte mich dazu, mich mit einem Kaffee hinzusetzen und eine ruhige Testreihe mit Z-Image-Base durchzuführen: gleiche Prompts, gleiche Seeds, unterschiedliche CFG-Werte – so lange, bis mir die Muster ganz klar waren.

Ich bin Dora. Dieser Z-Image-CFG-Einrichtungsleitfaden ist das Ergebnis dieser Durchläufe, ergänzt durch Notizen aus früherer Arbeit mit Diffusionsmodellen. Ich bin nicht hier, um eine bestimmte Einstellung anzupreisen. Ich möchte zeigen, was sich für mich verändert hat, warum das wahrscheinlich passiert und wo ein kleiner Anstoß die Arbeit leichter statt lauter machen kann.

Was ist CFG

Der Einfluss von CFG auf die Bildgenerierung

Classifier-Free Guidance (CFG) ist der Regler, der bestimmt, wie stark das Modell dem Prompt folgen soll, im Vergleich zu seinen eigenen erlernten Priors. Ein niedriger CFG-Wert lässt das Modell wandern; ein hoher CFG-Wert zieht es näher an Ihre Worte heran. In der Praxis ist es weniger mystisch, als es klingt. Ich stelle es mir vor wie einen Regisseur, der Anweisungen gibt: „Lockerer” oder „Halte dich ans Skript.”

Als ich CFG von 1 bis 9 über identische Prompts hinweg variierte („sanftes Morgenlicht, Keramikbecher auf einem Holzschreibtisch, geringe Schärfentiefe”), waren die Veränderungen konsistent:

Niedriger CFG (1–3): stimmungsvollere Varianz, weicherer Kontrast, unerwartetere Texturen. Manchmal wurde die Tasse zu Steinzeug, oder das Licht neigte ins Kühlere. Nicht falsch, nur interpretiv.
Mittlerer CFG (3,5–6): Bilder stabilisierten sich, die Komposition hielt stand, und Details stimmten mit dem Prompt überein, ohne brüchig zu werden. Hier ließ meine Anspannung nach.
Hoher CFG (7+): Die Motivkonformität blieb hoch, aber Farbsättigung und Mikrokontrast stiegen an. Lichter wurden häufiger ausgebrannt. Auf den ersten Blick wirkte es kraftvoll, dann ermüdend.

Wer eine formelle Grundlage sucht: das ursprüngliche Classifier-Free-Guidance-Paper von Jonathan Ho und Tim Salimans erklärt den Mechanismus: CFG skaliert den Unterschied zwischen konditionalen und unkonditionalen Vorhersagen, um zwischen Stichprobentreue und Diversität abzuwägen.

Das Verhältnis zwischen CFG-Wert und Prompt-Konformität

Ein höherer CFG-Wert erhöht die Prompt-Konformität, aber mit Kompromissen:

Er behebt keine vagen Prompts. Ein unklarer Prompt bei CFG 8 ist immer noch unklar, nur lauter.
Er kann einen Literalismus erzwingen, der dem Stil zuwiderläuft. Bei hoher Guidance sah ich, wie sich „glänzend” einschlich, obwohl ich nicht danach gefragt hatte – als würde das Modell überdeutlich artikulieren.
Es gibt eine Wechselwirkung mit negativen Prompts. „Keine ausgebrannten Lichter, keine Übersättigung” dämpfte hohen CFG leicht, aber nicht so gut, wie einfach den Regler zurückzudrehen.

Mein Fazit: Verwenden Sie CFG, um einen guten Prompt zu „feinabzustimmen”, nicht um einen schwachen zu retten. Der Sweet Spot liegt meistens dort, wo die Konformität steigt, ohne dass Farbe und Beleuchtung theatralisch werden.

Empfohlener Bereich für Z-Image-Base CFG

Niedriger CFG (1–3): Mehr Zufall, mehr Kreativität

Bei CFG 2 auf Z-Image-Base erhielt ich eine angenehme, fast filmische Weichheit. Kanten waren weniger scharf, und kleine Artefakte verschwanden in Korn statt in Plastikglanz. Dieser Bereich half bei:

Atmosphärisch geprägten Szenen: Nebel, Dämmerung, Bokeh, aquarellartige Darstellungen.
Frühem Brainstorming: Ich wollte Möglichkeiten, keine Präzision. Niedriger CFG lieferte mir aus einem einzigen Seed drei glaubwürdige Richtungen.

Grenzen, auf die ich stieß:

Kompositionsdrift: Objekte wanderten, die Bildgestaltung verschob sich, Hände wurden wackelig.
Prompt-spezifische Details (Marke, Anzahl der Objekte) gingen verloren.

Wenn Sie ein Moodboard erstellen oder eine visuelle Sprache erkunden, ist niedriger CFG sanft und generativ. Wenn Sie unter Zeitdruck stehen, um ein Briefing zu erfüllen, ist er wahrscheinlich zu locker.

Mittlerer CFG (3,5–6): Gleichgewichtspunkt (empfohlen: 4,5)

Dies war die zuverlässigste Zone in meinen Tests. Bei 4,5 wirkte Z-Image-Base kooperativ, ohne glänzend zu werden. Ein paar Feldnotizen:

Farben beruhigten sich. Hauttöne hörten auf, ins Neonhafte zu kippen. Holz sah aus wie Holz, nicht wie Lack.
Die Beleuchtung blieb ausdrucksstark, ohne auszubrennen. Weiße Hemden behielten ihre Textur.
Prompts hielten ihre Form: Wenn ich nach „zwei Tassen” fragte, bekam ich meistens zwei Tassen.

Warum ich 4,5 als Ausgangspunkt empfehle:

Es erfasste die Absicht des Prompts und ließ gleichzeitig Raum für Stil.
Es funktionierte gut mit kleinen negativen Prompts (z. B. „zu stark gesättigt, Plastikglanz”).
Über sechs Seeds pro Prompt hinweg blieb die Variation nützlich, nicht chaotisch.

Randfälle:

Sehr technische Produktdarstellungen wollten manchmal etwas höher (5–5,5), um Kanten präzise zu treffen.
Malerische Texturen sahen hier gut aus, aber blühten manchmal besser bei 3,5–4 auf.

Hoher CFG (7+): Risiko der Übersättigung

Ich habe 7–9 ausprobiert, um zu sehen, wo die Dinge auseinanderbrechen. Sie brachen nicht auseinander, aber sie schrien.

Die Sättigung stieg auf eine Weise, die das Thumbnail ansprechend erscheinen ließ, mich aber im Kontext ermüdete.
Spiegellichter wurden hart. Metallisches wirkte blendend, Haut wurde wächsern.
Rauschen zeigte sich in glatten Flächen, als würde das Modell zu sehr anspannen.

Gibt es Verwendungszwecke für hohen CFG? Einige:

Thumbnail-orientierte Assets, bei denen Wirkung wichtiger ist als Nuance.
Enge Markenauflagen, wenn Sie auch die Farbe in der Nachbearbeitung zähmen und die Belichtung im Auge behalten.

Aber wenn Sie einen „Plastikeffekt” oder helles Überstrahlen erhalten, das Sie nicht weggraden können, drehen Sie den Regler zurück, bevor Sie einen Fix nach dem anderen aufstapeln. In meinen Durchläufen löste das Absenken von 7,5 auf 5 mehr als jede negative Prompt-Liste.

Diagnose häufiger Probleme

Übersättigte Bilder / zu grelle Farben

Was ich sah: Rottöne und Türkistöne stachen hervor, Verläufe zeigten Banding, und das gesamte Bild wirkte HDR-ähnlich.

Wahrscheinliche Ursache: CFG, der zu stark drückt, manchmal kombiniert mit kontrastbetonten Sampleern.

Was geholfen hat:

CFG zunächst um 1–2 Punkte senken. Einfache Gewinne.
Einen leichten Negativprompt hinzufügen: „übersättigt, Farb-Clipping.” Das nudgte, ersetzte aber nicht die CFG-Änderung.
Falls verfügbar, kontraststarke Nachbearbeitung reduzieren oder zu einem Sampler wechseln, der Mitteltöne besser erhält.

Bezug zur Arbeit: Assets fügten sich besser neben echten Fotos auf einer Seite ein. Ich hörte auf, die Farbe in der Nachbearbeitung zu bekämpfen.

Überbelichtete Bilder / Ausfressen der Lichter

Was ich sah: Weiße Hemden verloren ihr Gewebe; Fenster leuchteten wie Portale. Histogramme drängten sich auf der rechten Seite.

Wahrscheinliche Ursache: Hoher CFG plus „hell”- oder „sonnenbeleuchtet”-Prompts ohne Einschränkungen.

Was geholfen hat:

CFG auf den Bereich 4–5 absenken.
Explizit formulieren: „weiches diffuses Licht”, „Lichterdetails erhalten” oder „keine ausgebrannten Lichter”.
Belichtung über den Prompt anpassen („bedeckt” hat mehr bewirkt, als ich erwartet hatte). Wenn das Tool es erlaubt, Belichtung/Kontrast leicht anderswo reduzieren, statt nur mit der Guidance zu kämpfen.

Ergebnis: Spiegellichter blieben erhalten, aber mit Textur. Das Bild wirkte mehr wie eine Kamera, weniger wie ein Showroom-Render.

Detailverlust / Plastikeffekt

Was ich sah: Haut wirkte wächsern, Stoff wurde zu glatten Verläufen, Mikrotextur verschwand.

Wahrscheinliche Ursache: Eine Kombination aus hohem CFG und Stilbegriffen wie „glänzend”, „cinematische Beleuchtung” oder „ultra-detailliert”, die Oberflächen paradoxerweise abflacht.

Was geholfen hat:

CFG auf ~4,5 senken.
„Ultra-detailliert” durch konkrete Texturreferenzen ersetzen: „feines Leinengewebe”, „subtile Poren”, „matter Finish”.
Einen Negativprompt hinzufügen: „Plastik, wächsern, airgebrusht”.

In der Praxis: Das hat mich beim ersten Durchgang nicht direkt Zeit gespart, aber nach einigen Bildern bemerkte ich, dass es den mentalen Aufwand reduzierte. Weniger Neuläufe. Weniger „Warum sieht das unecht aus?”-Momente.

Empfehlungen für verschiedene CFG-Stile

Realistische Fotografie: CFG 4–5

Für fotorealistische Prompts fühlte sich 4–5 am ehesten wie „einstellen und vergessen” an. Ich verwendete diesen Bereich für Porträts, Schreibtischszenen und einfache Food-Aufnahmen. Bei 4,5 hielt die Hauttextur stand, Schatten wurden nicht zerquetscht, und Objektive wirkten glaubwürdig.

Hilfreiche Anpassungen:

Beleuchtung wie ein Mensch beschreiben: „Fensterlicht, nordseitig, bedeckt.”
Kleine Negativprompts verwenden: „übersättigt, Plastikhaut.”
Kompositionsbegriffe schlicht halten: „35mm, f/2.8, bis zur Taille”. Zu ausschmückende Prompts pushten den Stil zu stark und kämpften gegen Realismus.

Für wen das passt: Marketer und Creator, die generierte Bilder mit echter Fotografie mischen. Es fügt sich in Markenseiten ein, ohne aufzufallen.

Illustrationsstil: CFG 5–7

Illustration mochte etwas mehr Guidance. Bei 5,5–6,5 hielten Linien zusammen, und Paletten wirkten bewusst gewählt, ohne ins Neonhafte zu kippen.

Hilfreiche Anpassungen:

Medium konkret benennen: „Gouache-Wash”, „Tuschelinien”, „Siebdrucktextur”. Guidance fixiert sich dann auf diese Idee.
Wenn Farben schreien, CFG senken und Paletten-Cues verankern („gedämpfte Erdtöne”, „begrenzte Palette”).
Für Konzeptbögen so tief wie 3,5 gehen, um Variation über Frames hinweg zu fördern.

Für wen das passt: Teams, die konsistente visuelle Systeme aufbauen – für Apps, Dokumentationen oder Lernmaterialien –, bei denen Stilkohärenz wichtiger ist als fotorealistische Tricks.

Zusammenspiel von CFG mit anderen Parametern

CFG arbeitet nicht allein. Ein paar Wechselwirkungen tauchten bei mir immer wieder auf:

Sampler und Steps: Bei mehr Steps milderten sich Artefakte bei hohem CFG manchmal ab, aber nicht genug, um den Mehraufwand zu rechtfertigen. Ich erzielte bessere Ergebnisse durch das Absenken von CFG als durch das Erhöhen der Steps.
Auflösung: Das Hochskalieren bei hohem CFG verstärkte den Plastikglanz. Wenn ich große Ausgaben benötigte, hielt ich CFG moderat (≈4,5) und ließ einen separaten Upscaler die Details übernehmen.
Negative Prompts: Sie sind Würze, kein Rettungsanker. Eine kurze, gezielte Liste funktionierte am besten: „übersättigt, wächserne Haut, ausgebrannte Lichter”. Lange Listen schwächten das Bild ab.
Stil-Tokens: Wenn Sie starke Stil-Cues einbeziehen („Studio-Blitz, Hochglanzmagazin”), rechnen Sie damit, dass diese den High-CFG-Effekt verstärken. Entweder die Stilsprache abschwächen oder CFG senken.
Seeds und Variation: Drei Seeds bei 4,5 gaben mir mehr verwendbare Optionen als ein Seed bei 7. Ersteres fühlte sich nach Auswahl an, letzteres nach Korrektur.

Wer das tiefere Warum verstehen möchte: Die Classifier-Free-Guidance-Methode in Diffusionsmodellen skaliert effektiv den Unterschied zwischen konditionalen und unkonditionalen Vorhersagen. Treibt man dies zu weit, wird nicht nur das Signal, sondern auch Rauschen und eine Verzerrung hin zu hochkontrastigen Darstellungen verstärkt. Gute Einstiegspunkte: das ursprüngliche Classifier-Free-Guidance-Paper und die guidance_scale-Notizen in Diffusers. Sie decken sich mit meinen Beobachtungen: Guidance zum Steuern verwenden, nicht zum Erzwingen.

Das alles läuft auf eine kleine Praxis hinaus, die ich jetzt befolge: Ich starte bei CFG 4,5, lasse zwei Seeds laufen und verändere den Regler nur, wenn ich benennen kann, was falsch ist (zu hell, zu glänzend, zu vage). Es ist ruhige Arbeit, aber sie erspart mir später das Ringen mit dem Modell. Wenn Sie das in einen Workflow oder eine API-Pipeline einbauen, zeigt dieser kurze Z-Image-Base-API-Leitfaden, wo guidance_scale sitzt und wie man es sauber übergibt.