Benchmark Reproductible : Qwen Image 2512 vs SDXL vs FLUX pour Texte dans l'Image

Bonjour à tous, je m’appelle Dora. J’ai récemment réalisé des benchmarks de rendu de texte, confrontant Qwen Image 2512, SDXL et FLUX les uns aux autres. J’ai passé les trois dernières semaines à tester la génération de texte dans les images parce que j’ai continué à voir des affirmations selon lesquelles « ce modèle résout enfin le problème du rendu de texte ». Ces affirmations semblaient bruyantes. Les preuves semblaient minces.

J’ai donc construit un benchmark reproductible utilisant Qwen Image 2512, SDXL et FLUX—trois modèles que les gens comparent constamment. Je voulais voir ce qui se passe réellement quand on leur demande de rendre des affiches, des menus et des mises en page mixtes. Pas d’exemples triés sur le volet. Pas de captures d’écran marketing. Juste des tests cohérents sur des invites identiques.

Pourquoi les benchmarks reproductibles sont importants

La plupart des comparaisons que j’ai vues ne montrent que des exemples uniques. Une belle affiche du Modèle A, un panneau cassé du Modèle B. Cela vous indique que quelque chose s’est produit une fois—pas ce qui se produit de manière fiable.

Je devais comprendre les compromis. Où SDXL s’effondre-t-il ? Où FLUX brille-t-il ? Que livre réellement Qwen Image 2512 quand on le pousse avec du texte long ou des mises en page complexes ?

Selon la documentation du modèle de Hugging Face, Qwen Image 2512 améliore la précision du rendu de texte et la qualité de la mise en page, avec plus de 10 000 tours d’évaluations en aveugle montrant qu’il s’agit d’un modèle open-source leader. Pendant ce temps, les tests communautaires ont trouvé que FLUX gagne clairement en rendu de texte par rapport à SDXL, générant du texte correct dans chaque image de test tandis que SDXL a du mal. Mais ces évaluations n’ont pas répondu à ma question spécifique : qu’advient-il avec les mises en page d’affiche par rapport au texte de menu par rapport aux graphiques de miniature ?

Configuration du benchmark

J’ai testé les trois modèles en utilisant le même matériel—un NVIDIA RTX 4090 avec 24 Go de VRAM. Chaque modèle s’est exécuté avec ses paramètres recommandés pour éviter les handicaps injustes.

Même ensemble de prompts sur tous les modèles

Vingt prompts au total, organisés en quatre catégories. Chaque prompt spécifiait le contenu du texte exact, les exigences de mise en page et le style visuel. J’ai exécuté chaque prompt trois fois par modèle pour détecter les incohérences.

Je n’ai pas utilisé de prompts négatifs pour FLUX car FLUX utilise la correspondance de flux au lieu de la guidance sans classificateur, ce qui signifie qu’il ne supporte pas le conditionnement négatif. Pour garder les comparaisons équitables, j’ai évité les prompts négatifs pour tous les modèles.

Mêmes rapports d’aspect et paramètres

Chaque test a utilisé une résolution 1024×1024.

SDXL s’est exécuté à 30 étapes avec une échelle CFG de 7
FLUX Dev a utilisé 20 étapes avec une échelle de guidance de 5
Qwen Image 2512 s’est exécuté à 28 étapes avec une échelle de guidance de 5, que les tests communautaires suggèrent d’équilibrer la qualité et l’adhérence aux instructions

Les temps de génération ont varié considérablement. SDXL a pris environ 13 secondes pour quatre images, tandis que FLUX Dev en avait besoin 57 secondes—à peu près quatre fois plus longtemps. Qwen Image 2512 s’est situé entre les deux à environ 5 secondes par image avec des paramètres optimisés.

Ensemble de prompts (Open Source)

Je partage l’ensemble complet des prompts car la reproductibilité exige de voir les tests réels. Ce ne sont pas des prompts parfaits—ce sont des scénarios réalistes que je rencontre réellement.

Pour rendre les comparaisons au niveau des prompts plus faciles à reproduire et à étendre, nous testons également les mêmes ensembles de prompts dans différents environnements d’exécution, y compris WaveSpeed, qui fournit une interface cohérente pour exécuter plusieurs modèles d’image avec des paramètres comparables.

Comme pour tous les résultats ici, les résultats restent sensibles au libellé des invites, au nombre d’étapes et à l’échelle de guidance—les résultats doivent donc être interprétés comme directionnels plutôt qu’absolus.

Prompts d’affiche (5 exemples)

« Affiche d’événement avec le titre en gras ‘Summer Festival’ en haut, sous-titre ‘July 15-17’ en dessous, trois puces listant les activités, et texte de bas de page ‘Register at summerfest.com’ »
« Affiche de film style avec grand texte ‘THE LAST HORIZON’ centré, petit texte ‘Coming Soon’ en bas »
« Annonce d’atelier avec titre ‘Learn Python in 5 Days’, détails de date et d’heure, nom de l’instructeur, infos d’inscription »
« Affiche de concert avec nom du groupe en police décorative, détails du lieu, tarifs des billets »
« Couverture de livre avec nom d’auteur, titre en police serif, sous-titre, logo de l’éditeur »

Prompts de miniature (5 exemples)

« Miniature YouTube avec grand texte ‘TOP 5 TIPS’ et petit badge disant ‘NEW’ »
« Miniature de produit affichant le texte ‘50% OFF’ en évidence avec un petit label ‘Limited Time’ »
« Miniature de cours avec titre ‘Advanced AI’ et indicateur de difficulté ‘Expert Level’ »
« Miniature de recette avec nom du plat et badge ‘Ready in 30 min’ »
« Miniature de nouvelles avec titre et tag ‘BREAKING’ »

« Tableau de menu de café avec cinq articles, prix, et en-tête ‘Daily Specials’ »
« Panneau de restaurant montrant ‘Now Open’ avec les heures d’ouverture listées en dessous »
« Panneau de vitrine de magasin avec ‘Grand Opening’ et informations de date »
« Menu tableau noir de café avec trois sections et bordures décoratives »
« Signalisation de détail avec ‘Clearance Sale’ et réductions en pourcentage »

Prompts de contenu mixte (5 exemples)

« Infographie avec titre, trois étapes numérotées et boîte de résumé »
« Publication sur les réseaux sociaux avec texte de citation superposé sur un dégradé »
« Diapositive de présentation avec puces et texte de bas de page »
« Mise en page de magazine avec titre, aperçu du texte et numéros de page »
« Annonce avec nom de produit, liste de caractéristiques et appel à l’action »

Rubrique d’évaluation

J’ai noté chaque résultat sur quatre dimensions en utilisant une échelle 1–5. Je n’ai pas utilisé d’automatisation OCR car je voulais détecter les problèmes de mise en page que la reconnaissance de caractères pure manque.

Lisibilité du texte (1–5)

Pouvez-vous lire chaque mot sans plisser les yeux ? Les caractères sont-ils correctement formés ? Les lettres se brouillent-elles ensemble ou montrent-elles des artefacts ?

Score 5 : Chaque caractère est net et lisible. Pas d’erreurs d’orthographe, pas de lettres fusionnées, pas de traits manquants.
Score 3 : La plupart du texte est lisible mais montre des problèmes mineurs—léger flou, confusion occasionnelle de caractères.
Score 1 : Le texte est en grande partie illisible ou contient des erreurs d’orthographe majeures.

Précision de la mise en page (1–5)

Le texte apparaît-il où le prompt l’a spécifié ? Les hiérarchies sont-elles respectées—en-têtes plus grands que le corps du texte, espacement approprié entre les éléments ?

Qwen Image 2512 m’a impressionné ici. Selon la documentation des tests, il améliore la qualité de la mise en page et la composition multimodale, ce qui réduit les tentatives pour les conceptions complexes.

Fidélité visuelle (1–5)

Au-delà du texte lisible, l’image globale semble-t-elle cohérente ? Les polices sont-elles appropriées au contexte ? Le texte s’intègre-t-il naturellement aux éléments d’arrière-plan ?

C’est ici que les différences sont devenues évidentes. Certains modèles ont rendu du texte parfait sur des arrière-plans incohérents. D’autres ont créé de belles images avec du texte cassé.

Esthétique générale (1–5)

Utiliseriez-vous réellement ce résultat ? Semble-t-il fini ou a-t-il besoin d’un post-traitement significatif ?

Résumé des résultats

Après 180 générations au total (20 prompts × 3 modèles × 3 tentatives), des modèles ont émergé qui m’ont surpris.

Où Qwen Image 2512 gagne

Mises en page d’affiche avec 50+ caractères. Quand j’ai demandé des affiches d’événements avec plusieurs blocs de texte, Qwen Image 2512 plaçait systématiquement les éléments correctement. Le texte restait net même avec des chaînes plus longues.

Le modèle met l’accent sur la qualité du rendu du texte avec des caractères plus clairs, un espacement de ligne stable et un alignement prévisible—particulièrement précieux pour les visuels marketing et les brouillons de conception. J’ai remarqué cela particulièrement avec le contenu mixte chinois-anglais, bien que mes tests se soient concentrés sur l’anglais.

La vitesse était notable. Cinq secondes par image signifiait que je pouvais itérer rapidement sans perdre de qualité. C’est important quand vous affinez une conception par le biais de plusieurs tentatives.

Où SDXL gagne

Styles artistiques et itération rapide. Quand les invites mettaient l’accent sur le style plutôt que la précision du texte—« esthétique d’affiche rétro » ou « apparence de pancarte vintage »—SDXL a livré une interprétation artistique plus cohérente. L’approche à double architecture de SDXL avec des modèles de base et de raffineur lui donne des performances esthétiques fortes, particulièrement pour le contenu stylisé. L’avantage écosystémique compte aussi : plus de LoRAs, plus d’options ControlNet, plus de ressources communautaires.

La vitesse de génération a donné un avantage à SDXL pour les brouillons approximatifs. Treize secondes pour quatre images dépasse d’attendre une minute quand vous explorez simplement des concepts.

Où FLUX gagne

Texte court avec des invites complexes. Pour les miniatures et les panneaux simples, FLUX Dev a rarement fait d’erreurs d’orthographe. Les tests communautaires montrent que FLUX excelle en crénage, espacement et reproduction de style de police, produisant un texte net qui correspond aux normes typographiques professionnelles.

L’encodeur T5 semble faire une différence. FLUX utilise la technologie T5 des modèles de langage de Google, ce qui améliore la compréhension des invites complexes et la qualité du rendu du texte.

Mais FLUX a du mal avec les blocs de texte plus longs. Après environ 30 caractères, la précision a notablement chuté. Et les tests indépendants ont confirmé que bien que FLUX montre des améliorations par rapport aux modèles antérieurs, les résultats sont souvent en deçà des exemples impeccables dans les documents marketing.

Recommandations par cas d’usage

Si vous générez des affiches avec plusieurs éléments de texte et avez besoin d’une mise en page fiable : Qwen Image 2512 a mieux géré cela que je ne l’aurais attendu. La génération à 28 étapes a fourni une bonne qualité sans temps d’attente excessifs.

Si vous prototypez des conceptions et que le style compte plus que le texte parfait : SDXL vous donne la vitesse plus la flexibilité artistique. Vous allez probablement corriger le texte en post-production de toute façon.

Si vous créez des miniatures ou une signalisation courte et que la précision du texte est critique : FLUX Dev a livré le texte court le plus propre. Évitez juste de lui demander de rendre des paragraphes.

Pour les flux de travail mixtes, je me suis trouvé utilisant différents modèles pour différentes étapes. SDXL pour explorer rapidement les directions visuelles. Qwen Image 2512 quand la complexité de la mise en page augmentait. FLUX Dev quand le texte final devait être au pixel près pour le contenu plus court. Ce qui m’a le plus surpris n’était pas quel modèle a gagné globalement—car il n’existe pas de gagnant unique. C’était réaliser que « texte-dans-image » n’est pas un seul problème. C’est au moins trois : précision des caractères, précision de la mise en page et intégration esthétique. Différents modèles résolvent différents éléments.

Les prompts de benchmark sont disponibles pour quiconque souhaite vérifier ces résultats ou tester d’autres modèles. Je suis curieux de savoir si ces modèles se maintiennent sur différentes configurations matérielles ou styles d’invites.

Avez-vous récemment testé le rendu de texte ? Quel modèle vous a le plus surpris (ou le plus frustré) ? N’hésitez pas à partager vos résultats et vos invites dans les commentaires !