Was ist Z-Image-Base? Vollständige CFG-Kontrolle vs. Turbo-Geschwindigkeit

Hallo, ich bin Dora. Mich hat in letzter Zeit eine kleine Sache gestört. Ich wollte, dass meine Banner-Grafiken nicht mehr ein wenig… fehl am Platz wirken. Farben würden abdriften. Gesichter sahen unheimlich aus. Und wenn ich versuchte, eine Sache zu korrigieren, rutschte etwas anderes ab. Die kleine Reibung, die mich schließlich frustrierte, war diese: Ich konnte Ergebnisse nicht anpassen, ohne das ganze Bild aus dem Gleichgewicht zu bringen.

Also, letzte Woche und wieder am Montag morgen (Februar 2026) habe ich Z-Image-Base zusammen mit seinem schnelleren Pendant Z-Image-Turbo ausprobiert. Ich war nicht auf der Suche nach Geschwindigkeit. Ich wollte präzisere Kontrolle, Eingaben die sich vorhersehbar verhalten, Anpassungen die haften bleiben, und weniger mentale Akrobatik zwischen den Durchläufen.

Was ist Z-Image-Base?

Z-Image-Base ist ein Bildgenerierungsmodell mit 6B Parametern, das Wert auf Kontrolle und Vorhersagbarkeit legt statt auf rohe Geschwindigkeit. Wenn sich Turbo wie ein Sprint anfühlt, fühlt sich Base wie ein ruhiger Spaziergang mit einer Karte an. Es bietet mehr Regler, die tatsächlich wichtig sind, wenn man versucht, eine Referenz zu passen, Markenfarben konsistent zu halten oder eine visuelle Idee zu verfeinern, ohne den Faden zu verlieren.

Überblick über die 6B-Parameter-Architektur

Ich bin nicht hier, um Parameterzahlen zu verehren, aber die 6B-Marke signalisiert etwas Einfaches: genug Kapazität, um Stil und Struktur zu halten, ohne bei kleinen Änderungen zusammenzubrechen. In der Praxis bemerkte ich zwei Dinge während des Tests am 2.-3. Februar 2026:

Anpassungen stapelten sich sauberer. Das Ändern der Farbtemperatur oder Beleuchtung löschte die Komposition nicht so oft aus.
Seeds verhielten sich vorhersagbarer über mehrere Durchläufe hinweg. Wenn ich einen Seed sperrte und die Guidance-Stärke anpasste, entwickelte sich die Szene, anstatt sich zurückzusetzen.

Es ist immer noch eine Diffusions-ähnliche Erfahrung unter der Haube: Guidance-Skalen, Rauschpläne und der übliche Tanz von Schritten und Seeds. Wenn du dich für die Theorie interessierst, hier kommt classifier-free guidance ins Spiel. Aber was für mich wichtig war: meine kleinen Prompt-Änderungen fühlten sich proportional zu den Ausgaben an.

Hauptunterschiede zu Z-Image-Turbo

Turbo ist billiger und schnell. Es ist großartig für schnelle Concept-Erkundungen, Thumbnails, Stimmungsboards, Social-Media-Entwürfe. Aber ich stieß immer wieder auf dieselbe Mauer: Sobald mir etwas gefiel, eine präzise Variante zu erhalten (wärmerer Ton, weichere Schatten, etwas strafferer Rahmen) dauerte länger als nötig.

Base gab mir präzisere Kontrolle. Negative Prompts blieben besser bestehen, Referenzbilder hatten mehr Einfluss, wenn ich danach fragte, und CFG-Anpassungen fühlten sich linear statt ruckelig an. Durchläufe waren langsamer und teurer pro Bild, ja, aber weniger Wiederholungen machten das bei jeder Aufgabe wett, wo Treue wichtig war.

Kernfähigkeiten von Z-Image-Base

Das sind keine Bullet-Point-Funktionen zum Auswendiglernen. Das sind die Hebel, die ich ständig benutzte, und was sich änderte, wenn ich das tat.

Vollständige CFG-Unterstützung

Mit Base verhielt sich Guidance wie ein Dimmer, nicht wie ein Lichtschalter. Niedriger CFG ließ das Modell erkunden, nützlich, wenn ein Prompt zu steif wirkte. Höherer CFG schnappte Bilder näher an den Text, aber ohne den spröden, überkontrasierten Look, den ich manchmal in kleineren oder über-eingestellten Modellen sehe.

In einem echten Durchgang: Ich generierte eine Serie von Artikel-Header (“ruhiger Arbeitsbereich, gedämpfte Palette, natürliches Licht, minimales Durcheinander”). Bei CFG 4–5 bekam ich weiche, atmosphärische Ergebnisse, schön, aber vage. Bei 7–8 verriegelte sich die Komposition: Schreibtisch, Fensterlicht, saubere Linien. Über 10 fingen Details an, sich zu überkonformieren (harte Kanten, weniger organisches Licht). Mein Sweet Spot landete bei etwa 7,5 für diesen Stil.

Kontrolle negativer Prompts

Hier verdiente Base mein Vertrauen. Wenn ich “kein Lens-Flare, keine glänzenden Reflexionen, keine schiefen Winkel” fragte, zog sich das Modell tatsächlich zurück. Mit Turbo wurden diese Notizen manchmal ignoriert, wenn der Hauptprompt zu kinematisch wirkte.

Ein kleines Beispiel: Für eine Produktshots-Mockup produzierten “keine spekularen Highlights” plus “matte Oberfläche” konsistente Flächen in 6 von 8 Durchläufen. Nicht perfekt, aber konsistent genug, dass ich nicht jede Grafik von Hand retuschieren musste. Die mentale Belastung fiel, weniger Mikrokorrektionen nötig.

Referenzbild-Führung

Ich nutzte zwei Referenzen: eine Markenfarben-Karte und einen Layout-Rahmen von einem früheren Design. Base respektierte beide stärker, wenn ich die Referenzgewichtung höher setzte. Farben blieben in einem Bereich, der zur Palette passte (nicht exakt, aber nah genug, dass ich nicht neu anstreichen musste), und die Komposition blieb im Rahmen, ohne sich starr anzufühlen.

Es gibt einen Trade-off. Schieb das Referenzgewicht zu weit und du bekommst ein abgestandenes Echo der Quelle. Halte es moderat und du bekommst Kontinuität ohne Klonen. Für mich fühlten sich 0,35–0,55 richtig an, wenn ich Markenkonsistenz brauchte: 0,15–0,25, wenn ich nur einen Schubs wollte.

Feinabstimmung des Stärkeparameters

Nenne es Denoise-Stärke, Image-to-Image-Stärke oder einfach “wie viel sollten wir das ändern?”, der Hebel ist wichtig. Mit Base behielten Mid-Strength-Anpassungen (etwa 0,45–0,6 in meinen Durchläufen) das Layout, während der Stil sich entwickelte. Das ist ideal für “gleiche Szene, andere Stimmung.”

Zwei Durchläufe, die herausstachen:

Ich milderte die Mittagsbeleuchtung zu spätnachmittäglicher Wärme, ohne die Objektplatzierung zu verlieren. Ein Schieberegler-Zug, ein Durchgang, erledigt.
Ich tauschte einen strukturierten Hintergrund gegen einen flachen aus, während ich die Subjekt-Maske ausreichend intakt hielt, dass ich nicht die Silhouette neu fotografieren musste.

Das sparte mir anfangs keine Zeit, ich spielte damit herum. Aber nach ein paar Durchläufen bemerkte ich, dass es Wiederholungen reduzierte und mentalen Aufwand senkte. Das Modell veränderte, was ich fragte, und ließ den Rest allein.

Wann sollte man sich für Base statt Turbo entscheiden

Ich wechselte einen Tag lang zwischen den beiden, um den Unterschied zu fühlen. Die Wahl war nicht philosophisch: sie war praktisch.

Wähle Base: Wenn feinkörnige Kontrolle wichtig ist

Du passt Markenpaletten oder wiederkehrende Layouts an und kleine Abweichungen sind kostspielig.
Du brauchst, dass negative Prompts haften bleiben (keine glänzenden Reflexionen, keine extremen Tiefenschärfe, kein schiefer Horizont), weil die Bereinigungs-Zeit sich summiert.
Du verfeinernst eine Idee über mehrere Durchläufe hinweg und willst die Komposition nicht jedes Mal zurücksetzen, wenn du Beleuchtung oder Farbe anpasst.

Base machte Bilder nicht “besser” von allein. Es ließ Korrektionen halten. Das war der Gewinn.

Wähle Turbo: Wenn Geschwindigkeit die Priorität ist

Du erkundest Richtungen, generierst viele Optionen oder erstellst schnell ein Storyboard.
Du akzeptierst Rauheit und planst, später eine kleine Teilmenge zu polieren.
Kosten sind ein Faktor und du willst zuerst ein breites Netz auswerfen.

Mein Muster jetzt: Start in Turbo, um den Raum zu kartieren, Wechsel zu Base sobald ich eine Richtung sehe, die es wert ist zu behalten. Es ist ein Zwei-Gang-System, das sinnvoll wirkt.

Preisvergleich

Preise ändern sich, aber hier ist, womit ich während des Tests in den frühen Februartagen 2026 arbeitete.

Base: 0,01 $/Bild

Bei einem Cent pro Bild ist Base nicht teuer, aber auch nicht wegwerfbar billig. Wenn du tief an einem Visual iterierst, sagen wir 20–40 Durchläufe, zahlt sich die zusätzliche Kontrolle oft durch weniger Neuanfänge später aus (weniger manuelle Bearbeitung, weniger Neustarts).

Turbo: 0,005 $/Bild

Halb so teuer und spürbar schneller. Großartig für die Generierung von 50–100 Rauheiten, um eine Richtung zu finden. Wenn dein Workflow “breit ideieren, eng verfeinern” ist, hält Turbo die erste Phase erschwinglich.

Schnelleinstieg

Wenn du neugierig bist und die Unterschied fühlen willst, ohne Docs zu lesen, ist das der Weg, den ich nehmen würde.

Wähle einen konkreten Prompt. Etwas Vertrautes, wie “weiches Licht auf dem Schreibtisch, gedämpfte Farben, Naturholz, kein Durcheinander.”
Führe 6–8 Bilder in Turbo aus. Beachte eines, das du tatsächlich nutzen würdest.
Wechsel zu Base mit dem gleichen Seed (oder einem ähnlichen Seed). Setze CFG 7–8.
Füge negative Prompts hinzu, die für dich wichtig sind (keine harten Schatten, kein Lens-Flare, kein schiefer Winkel).
Wenn du eine Referenz hast, Palette oder Layout, wende sie mit moderatem Gewicht an (0,3–0,5).
Nutze Stärke ~0,5 für eine erste Variation. Schieb rauf oder runter in kleinen Schritten.
Behalte, was verbessert. Mache rückgängig, was dich bekämpft. Jagd nicht nach Perfektion: jagd nach Wiederholbarkeit.

Das funktionierte für mich, deine Erfahrung kann abweichen. Der Unterschied tauchte nicht in einem einzelnen “Wow”-Bild auf, sondern darin, wie das Modell reagierte, wenn ich um kleine, langweilige Korrektionen bat. Das ist, wo Tools entweder gut altern oder laut werden.

Eine letzte Anmerkung: Falls du dich wunderst “Was ist Z-Image-Base” über Spezifikationen hinaus, ist es folgendes für mich: ein Modell, das kleine Entscheidungen haften lässt. Ich nehme das über Feuerwerk jederzeit.