Qu'est-ce que Z-Image-Base? Contrôle CFG complet vs vitesse Turbo

Bonjour, je m’appelle Dora. Un petit problème m’ennuie depuis peu. Je voulais que mes graphiques de bannière cessent de sortir un peu… bizarres. Les couleurs dériveraient. Les visages auraient un look étrange. Et quand j’essayais de corriger une chose, quelque chose d’autre glissait. La petite friction qui m’a finalement décidée était celle-ci : je ne pouvais pas ajuster les résultats sans déséquilibrer toute l’image.

Alors, la semaine dernière et ce lundi matin (février 2026), j’ai essayé Z-Image-Base aux côtés de son frère plus rapide, Z-Image-Turbo. Je ne cherchais pas la vitesse. Je voulais un contrôle plus stable, des prompts qui se comportent bien, des ajustements qui restent en place, et moins d’acrobaties mentales entre les exécutions.

Qu’est-ce que Z-Image-Base ?

Z-Image-Base est un modèle de génération d’images avec 6 milliards de paramètres qui penche vers le contrôle et la prévisibilité plutôt que vers la vitesse brute. Si Turbo ressemble à un sprint, Base ressemble à une marche régulière avec une carte. Il expose plus de commandes qui comptent vraiment quand vous essayez de faire correspondre une référence, de maintenir les couleurs de marque cohérentes, ou d’itérer sur un concept visuel sans perdre le fil.

Aperçu de l’architecture avec 6 milliards de paramètres

Je ne suis pas ici pour adorer les comptes de paramètres, mais le seuil des 6 milliards signale quelque chose de simple : suffisamment de capacité pour conserver le style et la structure sans s’effondrer sur les petits changements. En pratique, j’ai remarqué deux choses lors des tests des 2-3 février 2026 :

Les éditions s’empilaient plus proprement. Changer la température des couleurs ou l’éclairage n’effaçait pas aussi souvent la composition.
Les seeds se comportaient de manière plus prévisible entre les exécutions. Quand j’ai verrouillé une seed et ajusté la force de guidance, la scène a évolué plutôt que de se réinitialiser.

C’est toujours une expérience de style diffusion sous le capot : les échelles de guidance, les calendriers de bruit, et la danse habituelle des steps et des seeds. Si vous vous intéressez à la théorie, c’est là que la guidance sans classificateur joue un rôle. Mais ce qui m’importait était ceci : mes petits changements de prompt semblaient proportionnels à la sortie.

Différences clés par rapport à Z-Image-Turbo

Turbo est moins cher et rapide. C’est super pour les explorations de concepts rapides, les miniatures, les mood boards, les brouillons pour les réseaux sociaux. Mais j’ai continué à me heurter au même mur : une fois que j’aimais quelque chose, obtenir une variation précise (tonalité plus chaude, ombres plus douces, recadrage légèrement plus serré) prenait plus de temps qu’il ne devrait.

Base m’a donné un contrôle plus fin. Les prompts négatifs tenaient mieux, les images de référence avaient plus d’impact quand je le demandais, et les ajustements CFG semblaient linéaires plutôt que saccadés. Les exécutions étaient plus lentes et coûtaient plus cher par image, oui, mais moins de retentatives compensaient cela sur toute tâche où la fidélité comptait.

Capacités principales de Z-Image-Base

Ce ne sont pas des fonctionnalités à mémoriser sous forme de puces. Ce sont les leviers que j’ai trouvé moi-même en train d’utiliser, et ce qui a changé quand je l’ai fait.

Support complet de CFG

Avec Base, la guidance se comportait comme un variateur, pas un interrupteur. Un CFG plus bas laissait le modèle explorer, utile quand un prompt semblait trop rigide. Un CFG plus haut rapprochait les images du texte, mais sans l’aspect fragile et surcontrasté que je vois parfois dans les modèles plus petits ou surajustés.

Dans un passage réel : j’ai généré une série d’en-têtes d’articles (« espace de travail calme, palette atténuée, lumière naturelle, encombrement minimal »). À CFG 4-5, j’ai obtenu des résultats doux et atmosphériques, sympa, mais vagues. À 7-8, la composition s’est verrouillée : bureau, lumière de la fenêtre, lignes propres. Au-dessus de 10, les détails ont commencé à surconformer (bords durs, lumière moins organique). Mon point idéal s’est établi autour de 7,5 pour ce style.

Contrôle des prompts négatifs

C’est là que Base a gagné ma confiance. Quand j’ai demandé « pas d’effet de lens flare, pas de reflets brillants, pas d’angles inclinés », le modèle a vraiment reculé. Avec Turbo, ces notes étaient parfois ignorées si le prompt principal penchait vers le cinématique.

Un petit exemple : pour une maquette de photo de produit, « pas de reflets spéculaires » plus « fini mat » a produit des surfaces cohérentes dans 6 runs sur 8. Pas parfait, mais assez cohérent pour que je n’aie pas besoin de retoucher chaque rendu à la main. La charge mentale a baissé, moins de micro-corrections.

Guidance avec image de référence

J’ai utilisé deux références : une carte de couleurs de marque et un cadre de mise en page d’une conception passée. Base a respecté les deux plus fortement quand j’ai défini le poids de la référence plus haut. Les couleurs restaient dans une gamme qui correspondait à la palette (pas exacte, mais assez proche pour que je n’aie pas besoin de repeindre), et la composition restait dans le cadre sans sembler rigide.

Il y a un compromis. Poussez le poids de la référence trop loin et vous obtenez un écho éventé de la source. Gardez-le modéré et vous obtenez la continuité sans clonage. Pour moi, 0,35-0,55 semblait juste quand j’avais besoin de cohérence de marque : 0,15-0,25 quand je voulais juste une nudge.

Ajustement du paramètre de force

Appelez-le force de denoise, force image-vers-image, ou juste « combien devrions-nous changer ceci ? », le bouton compte. Avec Base, les édits de force moyenne (autour de 0,45-0,6 dans mes runs) préservaient la mise en page tout en laissant le style évoluer. C’est idéal pour « même scène, ambiance différente ».

Deux runs qui se sont démarquées :

J’ai adouci l’éclairage de midi en chaleur de fin d’après-midi sans perdre le placement des objets. Un mouvement de curseur, un run, fait.
J’ai échangé un arrière-plan texturé contre un plat tout en gardant le masque de sujet intact suffisamment pour ne pas avoir besoin de retirer la silhouette.

Cela ne m’a pas économisé du temps au début, j’ai bricolé. Mais après quelques passages, j’ai remarqué que cela réduisait les retentatives et réduisait l’effort mental. Le modèle a changé ce que j’ai demandé, et a laissé le reste seul.

Quand choisir Base plutôt que Turbo

J’ai continué à basculer entre les deux pendant une journée pour sentir la différence. Le choix n’était pas philosophique : c’était pratique.

Choisir Base : Quand le contrôle fin compte

Vous faites correspondre les palettes de marque ou les mises en page récurrentes et les petits écarts sont coûteux.
Vous avez besoin que les prompts négatifs restent en place (pas de reflets brillants, pas de profondeur de champ extrême, pas d’horizon incliné) parce que le temps de nettoyage s’accumule.
Vous itérez sur un concept sur plusieurs runs et ne voulez pas réinitialiser la composition à chaque fois que vous ajustez l’éclairage ou la couleur.

Base n’a pas rendu les images « meilleures » en soi. Il a maintenu les corrections en place. C’était la victoire.

Choisir Turbo : Quand la vitesse est la priorité

Vous explorez les directions, générez beaucoup d’options, ou créez un storyboard rapidement.
Vous êtes à l’aise avec la rugosité et prévoyez de polir un petit sous-ensemble plus tard.
Le coût est un facteur et vous voulez jeter un large filet en premier.

Mon modèle maintenant : commencer dans Turbo pour cartographier l’espace, passer à Base une fois que j’ai repéré une direction qui vaut la peine d’être conservée. C’est un système à deux vitesses qui semble sensé.

Comparaison des prix

Les prix changent, mais voici ce avec quoi j’ai travaillé pendant les tests en début février 2026.

Base : 0,01 $/image

À un centime par image, Base n’est pas cher, mais ce n’est pas non plus jetable bon marché. Si vous itérez profondément sur un visuels, disons 20-40 runs, le contrôle supplémentaire paie souvent pour lui-même en moins de retentatives en aval (moins d’édition manuelle, moins de redémarrages).

Turbo : 0,005 $/image

La moitié du prix et sensiblement plus rapide. Super pour générer 50-100 brouillons pour trouver une direction. Si votre flux de travail est « idéer large, raffiner étroit », Turbo garde la première phase abordable.

Démarrage rapide

Si vous êtes curieux et voulez sentir la différence sans lire de docs, c’est le chemin que je prendrais.

Choisissez un prompt bien ancré. Quelque chose de familier, comme « scène de bureau éclairée doucement, couleurs atténuées, bois naturel, pas d’encombrement ».
Exécutez 6-8 images dans Turbo. Notez-en une que vous utiliseriez réellement.
Basculez vers Base avec la même seed (ou une seed proche). Définissez CFG 7-8.
Ajoutez des prompts négatifs qui vous importent (pas d’ombres dures, pas de lens flare, pas d’angle incliné).
Si vous avez une référence, palette ou mise en page, appliquez-la avec un poids modéré (0,3-0,5).
Utilisez une force ~0,5 pour une première variation. Augmentez ou diminuez par petits pas.
Gardez ce qui s’améliore. Annulez ce qui vous combat. Ne poursuivez pas la perfection : poursuivez la répétabilité.

Cela a fonctionné pour moi, vos résultats peuvent varier. La différence a montré non pas dans une seule image « wow », mais dans la manière dont le modèle a répondu quand je lui ai demandé de petits, ennuyeux corrections. C’est là que les outils vieillissent bien ou deviennent bruyants.

Une dernière note : si vous vous demandez « Qu’est-ce que Z-Image-Base » au-delà des spécifications, c’est ceci pour moi, un modèle qui permet aux petites décisions de rester en place. Je vais prendre cela sur les feux d’artifice n’importe quel jour.