Z-Image-Base vs Z-Image-Turbo : Comparaison de la qualité, de la diversité et du coût

Salut tout le monde. Je m’appelle Dora. Haha, tout a commencé par un petit accroc un mardi soir : une image de bannière qui ressortait toujours un peu floue alors que j’avais besoin d’un texte net et de contours précis. Je jonglais entre Z-Image-Base et Z-Image-Turbo depuis quelques semaines, surtout à l’instinct. Ce soir-là, l’instinct ne suffisait plus. J’ai donc mis de côté une heure, puis une autre, puis le reste de la semaine, et j’ai fait passer les mêmes prompts dans les deux modèles selon quelques contraintes simples.

Ce n’est pas un avis. C’est ce que j’ai remarqué en faisant du travail ordinaire : des en-têtes de diapositives, des images légères pour les réseaux sociaux, une fiche concept pour une page produit, et quelques storyboards. Si vous jonglez déjà avec trop d’outils et voulez juste savoir où Z-Image-Base et Z-Image-Turbo divergent vraiment, voici la version courte et soignée.

Vue d’ensemble comparative des fonctionnalités

Comparaison de la prise en charge du CFG

J’ai gardé les prompts identiques et n’ai varié que le guidage sans classificateur (CFG). Avec Base, augmenter le CFG de 5 à 9 resserrait la composition et restait fidèle au prompt sans étouffer le style. À 11+, Base commençait à sembler un peu surajusté, les éléments devenaient rigides, mais pas cassés.

Turbo se comportait différemment. En dessous de CFG 6, il dérivait : de belles images, mais parfois trop « créatives » pour un travail client. De 7 à 8, Turbo se calait bien : bonne cohérence, moins de vagabondage, mais au-delà de 9, il devenait vite fragile. Je voyais des hautes lumières lavées et des ombres écrêtées, comme si le modèle surcompensait pour satisfaire les mots plutôt que l’œil. Ma note du mercredi : « Point idéal Turbo : 7–8. Base : 6–9, plus indulgent. »

Pourquoi c’est important : si vous itérez en ajustant le CFG, Base vous offre une plage plus large et plus douce. Turbo vous demande de choisir une direction tôt et de s’y tenir.

Prise en charge des prompts négatifs

Je ne m’appuie pas beaucoup sur les prompts négatifs, mais ils aident à éliminer les fioritures bizarres, les mains en trop, les logos parasites, le désordre textuel. Base respectait les négatifs légers (« pas de filigrane », « pas de bordure ») sans faire s’effondrer les autres détails. L’effet semblait propre.

Turbo entendait les négatifs fort. « Pas de texte » atténuait parfois des formes ressemblant à des glyphes que je voulais en réalité (motifs, enseignes au loin). Quand j’atténuais les négatifs (« minimiser les artefacts de texte »), Turbo se comportait bien. L’effet m’a rappelé d’écrire les négatifs avec le même niveau d’intensité que le style souhaité, surtout avec Turbo.

Guidage par image de référence

J’ai testé deux modes : inspiration libre (une palette de couleurs et une suggestion de mise en page) et correspondance proche (maquettes de produits où les proportions importaient). Avec Base, les images de référence agissaient comme une main stable. Il empruntait la palette et la mise en page générale tout en laissant de la place au style guidé par le prompt. Idéal pour les moodboards.

Turbo, avec les mêmes références, se penchait vers le mimétisme. Pour les tâches de correspondance proche, c’était utile : les angles et l’éclairage du produit suivaient la référence plus fidèlement, même avec peu d’étapes. Mais pour le travail exploratoire, l’empressement de Turbo à suivre aplatissait parfois la variation entre les essais.

Si votre flux de travail utilise les références comme rails, Turbo est facile à diriger. Si vous voulez un contrôle structurel plus précis au-delà d’un simple guidage par référence, ce court guide Z-Image-Turbo ControlNet explique comment verrouiller la composition plus précisément.

Différence dans le nombre d’étapes d’échantillonnage

Je me suis tenu aux valeurs par défaut indiquées dans la documentation et l’interface : Base à 50 étapes, Turbo à 8. Publié par Tongyi-MAI d’Alibaba, Z-Image-Turbo n’utilise que 8 étapes d’échantillonnage grâce à la distillation Decoupled-DMD pour atteindre une latence inférieure à la seconde sur les GPU de centres de données, tout en tenant dans 16 Go de VRAM sur les cartes grand public. J’ai quand même essayé de descendre Base à 30 et de monter Turbo à 12. Base à 30 étapes perdait un peu de micro-contraste dans les tissus et le feuillage, rien de dramatique, mais suffisant pour le remarquer dans des exports grand format. Turbo à 12 étapes améliorait un peu la stabilité (moins de petits défauts sur les bords) mais ne changeait pas beaucoup la composition.

En pratique : si vous valorisez les « 10 derniers pourcents » de détail, Base à 50 étapes en valait la peine. Si vous optez par défaut pour des canevas plus petits ou des recadrages pour les réseaux sociaux, les 8 étapes de Turbo suffisaient, plus vite que mon cerveau ne pouvait changer de contexte, ce qui a sa propre valeur.

Comparaison de la qualité d’image

Richesse des détails

J’ai effectué quelques micro-tests : textures métalliques, mèches de cheveux à contre-jour, et texte en serif de taille moyenne. Base produisait systématiquement des micro-détails plus riches. Les métaux avaient une anisotropie plus nette, les cheveux semblaient moins flous, les ombres conservaient un dégradé doux au lieu de créer des bandes. Sur des canevas plus grands (2048 px), Base tenait mieux quand je zoomais à 100 %.

Turbo n’était pas mauvais, il semblait juste réglé pour « bon au premier coup d’œil ». À la taille d’un écran de téléphone, ses images semblaient percutantes et finies. De près, je voyais un peu de lissage, et les petits éléments fusionnaient plus tôt. Pour les images héros de sites web et les diapositives, Turbo convenait. Pour l’impression ou les recadrages serrés, Base l’emportait.

Diversité des styles

Je m’attendais à ce que Base soit le généraliste, mais Turbo m’a surpris sur de courtes sessions. Il changeait de style rapidement avec de petites modifications de prompt — photo vers dessin au trait vers aquarelle douce — avec peu de résidu. C’était utile quand je voulais des variations rapides pour une présentation.

Sur une session plus longue, cependant, Base couvrait plus de terrain. De légères variations de formulation produisaient de nouveaux aspects sans perdre en qualité. Ma note du jeudi : « Base explore en profondeur, Turbo explore plus vite. » Si vous aimez vous promener un peu et affiner, Base récompense la patience. Si vous avez besoin d’un spectre rapidement, Turbo fait une première passe convaincante.

Capacité de rendu de texte

Ni l’un ni l’autre n’est un moteur de rendu de texte dédié, et je ne ferais pas reposer une campagne là-dessus. J’ai quand même essayé des mots courts (3–6 lettres), à fort contraste, avec des polices simples.

Base gérait les mots simples en majuscules plus fiablement, surtout à 50 étapes. Je pouvais obtenir un LOGO ou SALE passable à 1024 px. Turbo avait tendance à tordre ou à faire disparaître des lettres, en particulier en petite taille. Quand j’ai monté Turbo à 12 étapes et simplifié les prompts, c’était amélioré, mais il ne rattrapait pas Base.

Solution de contournement utile dans les deux cas : ajouter un bloc de fond uni fin derrière la zone de texte dans la description du prompt. Cela semble réduire l’envie du modèle de styliser les formes des lettres. Note pratique : pour tout élément où le texte est essentiel, je composite quand même du vrai texte après la génération.

Vitesse et délais

Base : ~3–5 secondes (50 étapes)

Mesuré sur une connexion filaire, les soirs en CET. Base a fait en moyenne 3,6–4,8 secondes pour des images de 1024 px à 50 étapes sur ~120 générations. Des pics à 6–7 secondes se sont produits pendant une fenêtre (vers 21h) mais se sont vite stabilisés. L’attente ne me dérangeait pas car je mets généralement les prompts en lot et les révise en une seule fois.

Deux petites notes :

La vitesse perçue compte. Le timing plus stable de Base me permettait de trouver un rythme : écrire → mettre en file → boire du thé → réviser. Ce rythme réduit la fatigue due aux changements de contexte.
Si je descendais à 30 étapes, j’économisais ~1,2 seconde en moyenne, mais la perte de qualité ne valait pas la peine pour des éléments que je pourrais réutiliser.

Turbo : <1 seconde (8 étapes)

Turbo était saisissant. La plupart des images arrivaient en 400–800 ms à 1024 px, même aux heures de pointe. La vitesse m’encourageait à itérer en ligne pendant la rédaction des prompts. J’ajustais une phrase et obtenais un retour quasi instantané.

Cela ne sauvait pas toujours du temps réel — parfois je cliquais plus parce que je pouvais — mais cela réduisait la charge mentale pour le travail de « trouver la direction ». Pour des storyboards rapides ou des miniatures, cette réactivité quasi instantanée allégeait le processus. L’un des compromis : des résultats rapides m’incitaient à accepter le « suffisamment bon » plus souvent, ce qui convient pour les brouillons mais est risqué pour les finaux.

Analyse des coûts

Base : 0,01 $/image

À un centime par image, Base m’a coûté 1,11 $ pour un ensemble de 111 images dans ce lot de test. Si je produisais des fiches concept hebdomadaires (disons 400 images), cela représente environ 4 $. Le vrai coût avec Base est moins une question d’argent que de patience — chaque image demande quelques secondes supplémentaires, ce qui s’accumule si vous enchaînez rapidement.

Turbo : 0,005 $/image

Un demi-centime par image semble dérisoire jusqu’à ce que vous fassiez la multiplication. Mes 250 variations rapides pour une présentation m’ont coûté 1,25 $. Si vous prototypez des fonctionnalités dans un produit (beaucoup de clichés tests), Turbo est plus doux pour les budgets et les pipelines CI.

Comparer Z-Image-Base et Z-Image-Turbo uniquement sur le coût est trop simpliste, mais la tendance est claire : Turbo est moins cher pour explorer ; Base reste assez bon marché pour finaliser. Ce qui m’a aidé : faire 80 % de l’exploration avec Turbo, puis passer à Base pour les images à conserver.

Arbre de décision pour la sélection

Voici le chemin de sélection que j’utilisais d’ici vendredi. Ce n’est pas universel, juste celui qui me gardait calme et productive.

Ai-je besoin d’une direction en moins d’une minute ? Turbo. J’écrirai un prompt plus souple, réglerai le CFG à 7–8, et parcourrai 6–10 résultats rapidement.
Ai-je besoin de détails qui survivent à un recadrage à 100 % ou à l’impression ? Base. Garder 50 étapes, CFG 6–9, et le laisser rendre sans multitâche.
Utilise-je une image de référence comme rails (correspondre à l’angle, l’éclairage, les proportions) ? Turbo. Il suit plus fidèlement.
Utilise-je une référence comme ambiance (couleur, atmosphère, mise en page générale) ? Base. Il laisse de la place pour respirer.
Le texte dans l’image est-il important ? Base. Puis j’ajoute quand même du vrai texte ensuite.
Suis-je contraint par le coût ou le quota et ai-je juste besoin de beaucoup de variations sûres ? Turbo. Il est facile sur les budgets et rapide à écarter.
Est-ce que j’itère avec des négatifs délicats (supprimer une chose sans en ternir d’autres) ? Base. Il soustrait plus doucement.

Si vous préférez une règle rapide pour Z-Image-Base vs Z-Image-Turbo : Turbo sert à trouver ; Base sert à garder. Pas toujours, mais assez souvent pour que je lui fasse confiance.

Dernière petite observation : la vitesse me tente de décider tôt. La qualité m’invite à regarder deux fois. Certains jours, j’ai besoin de la poussée ; d’autres jours, j’ai besoin de la pause. Votre travail penche peut-être d’un côté. Si vous êtes quelque part au milieu, commencez avec Turbo pour esquisser et finissez avec Base pour valider.