Qwen Image 2.0 : Le modèle d'IA n°1 pour la génération et l'édition d'images

Qwen Image 2.0 unifie la génération d'images à partir de texte et l'édition d'images en un seul modèle 7B. N°1 sur AI Arena, résolution native 2K, typographie professionnelle. Disponible maintenant sur WaveSpeedAI.

9 min read
Wavespeed Ai Qwen Image.2.0 Qwen Image 2.0 unifie la génération d'images à partir de tex...
Try it

Qwen Image 2.0 : Le modèle d’image classé n°1 est désormais disponible sur WaveSpeedAI

C’est là. Qwen Image 2.0 — le modèle qui occupe la 1ère position sur le classement d’évaluation humaine à l’aveugle d’AI Arena pour la génération d’images comme pour l’édition d’images — est maintenant disponible sur WaveSpeedAI.

Développé par Alibaba, Qwen Image 2.0 fait quelque chose qu’aucun autre modèle à ce niveau ne fait : il unifie la génération d’images à partir de texte et l’édition d’images dans un seul modèle. Générez une image à partir d’un prompt, puis modifiez-la avec des instructions en langage naturel — même modèle, même point d’accès, sans changer d’outil. Et tout cela avec seulement 7 milliards de paramètres, près de 3 fois plus petit que son prédécesseur, tout en offrant des résultats significativement meilleurs.

Qu’est-ce que Qwen Image 2.0 ?

Qwen Image 2.0 est le modèle de fondation d’image de deuxième génération d’Alibaba, publié en février 2026. Son architecture associe un encodeur vision-langage Qwen3-VL de 8B à un décodeur de diffusion de 7B — une conception qui confère au modèle une compréhension approfondie du contenu textuel et visuel.

L’ancien Qwen Image nécessitait des modèles séparés pour la génération et l’édition. Qwen Image 2.0 élimine cette séparation. Un seul modèle unifié gère la boucle créative complète : générer une image à partir de texte, modifier des éléments spécifiques, appliquer des transferts de style, ajouter ou supprimer des objets, superposer du texte, composer plusieurs images, et plus encore — tout cela via des instructions en langage naturel.

Ce n’est pas une mise à niveau marginale. C’est un flux de travail fondamentalement différent. Vous passez du prompt à l’asset final dans un seul pipeline, en itérant autant de fois que nécessaire sans quitter le modèle.

Fonctionnalités clés de Qwen Image 2.0

  • Génération + Édition unifiées — Un seul modèle fait les deux. Générez des images à partir de prompts textuels et modifiez des images existantes avec des instructions en langage naturel. Le transfert de style, l’insertion/suppression d’objets, les superpositions de texte, la composition multi-images et l’édition inter-domaines (par exemple, intégrer des personnages illustrés dans des photographies) sont tous gérés nativement.

  • Résolution 2K native — Génère jusqu’à 2048 × 2048 pixels nativement. Les détails fins — pores de la peau, texture du tissu, textures architecturales, texte imprimé — sont rendus lors de la génération, et non ajoutés par mise à l’échelle. Le résultat est prêt pour la production à sa résolution native.

  • Typographie et mise en page professionnelles — C’est la fonctionnalité phare. Qwen Image 2.0 restitue des mises en page textuelles complexes directement à partir des prompts : diapositives de présentation, infographies, affiches de films, calendriers, graphiques de données, bandes dessinées et menus. Il prend en charge des prompts allant jusqu’à 1 000 tokens, gère avec précision les textes en chinois et en anglais, et adapte le texte aux surfaces avec la perspective et la distorsion correctes.

  • 3x plus petit, meilleures performances — 7B de paramètres contre 20B dans la v1. Modèle plus petit, meilleurs benchmarks, inférence plus rapide. Les gains d’efficacité sont réels et se traduisent directement par un coût par image réduit.

  • N°1 sur AI Arena — Premier au classement dans l’évaluation humaine à l’aveugle pour la génération d’images text-to-image et l’édition d’images. Les juges comparent les résultats côte à côte sans savoir quel modèle les a produits. Qwen Image 2.0 est en tête dans les deux catégories.

  • Scores de benchmark solides — 88,32 sur DPG-Bench (contre 83,84 pour FLUX.1 et 85,15 pour GPT Image 1) et 0,91 sur GenEval (contre 0,66 pour FLUX.1). Ces scores reflètent une meilleure conformité aux prompts, une précision compositionnelle et une compréhension sémantique supérieures.

Cas d’usage concrets

Équipes marketing et design

Générez des diapositives de présentation, des infographies, des affiches et des visuels pour les réseaux sociaux avec un texte précis directement à partir des prompts. Puis itérez — « agrandissez le titre », « changez la couleur de fond en bleu marine », « ajoutez une photo du produit en bas à droite » — tout via le même modèle. Pas de Photoshop, pas d’outils de design, pas de transfert entre génération et édition.

Photographie de produits pour l’e-commerce

Générez des photos lifestyle de produits en résolution 2K native, puis modifiez-les pour correspondre à différentes campagnes, saisons ou plateformes. Changez les arrière-plans, remplacez les couleurs du produit, ajoutez des superpositions de texte promotionnel — sans régénérer depuis zéro. Le pipeline unifié transforme une seule photo de produit en dizaines de variantes prêtes pour les campagnes.

Pipelines de contenu à grande échelle

Un seul modèle gère l’ensemble du flux de travail générer → éditer → itérer. Fini d’enchaîner des outils séparés pour la génération, l’édition et la superposition de texte. Donnez à Qwen Image 2.0 un brief créatif, générez l’image de base et affinez-la par des passes d’édition successives — tout via le même point d’accès API.

Contenu multilingue

Rendu précis de texte en chinois et en anglais dans la même image. Supports marketing bilingues, maquettes d’emballages localisés, assets pour les réseaux sociaux internationaux — tous générés avec une typographie correcte dans les deux langues, sans post-traitement requis.

Création de bandes dessinées et de storyboards

Générez des planches séquentielles avec des personnages et des environnements cohérents, ajoutez des bulles de dialogue avec du texte lisible, et itérez sur des planches individuelles sans régénérer l’intégralité de la séquence. Les capacités de rendu textuel et d’édition du modèle en font un outil pratique pour la narration visuelle.

Benchmarks

BenchmarkQwen Image 2.0GPT Image 1FLUX.1BitDance 14B
DPG-Bench88,3285,1583,8488,28
GenEval0,910,660,86
AI Arena#1 (gén + édit)
Paramètres7B + encodeur 8B12B14B
Résolution2048 × 20481024 × 10241024 × 1024

Démarrer sur WaveSpeedAI

Text-to-Image

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/qwen-image-2.0/text-to-image",
    {
        "prompt": "A professional infographic about renewable energy trends in 2026, clean layout with data charts, green and blue color scheme, accurate text labels and statistics, modern corporate design",
        "size": "2048x2048",
    },
)

print(output["outputs"][0])

Édition d’image

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/qwen-image-2.0/edit",
    {
        "prompt": "Change the background to a sunset beach scene and add the text 'Summer Collection 2026' in elegant white serif font at the top",
        "image": "https://your-existing-image.jpg",
    },
)

print(output["outputs"][0])

Conseils pour de meilleurs résultats :

  1. Exploitez la typographie — Le rendu textuel de Qwen Image 2.0 est sa fonctionnalité phare. N’hésitez pas à inclure du contenu textuel spécifique, des descriptions de style de police et des instructions de mise en page dans vos prompts.
  2. Utilisez l’édition de manière itérative — générez une image de base, puis affinez-la avec des appels d’édition successifs. Chaque édition préserve ce que vous ne mentionnez pas et modifie ce que vous spécifiez.
  3. Décrivez la mise en page — pour les infographies, affiches et contenus designés, décrivez l’arrangement spatial : « titre en haut, trois colonnes en dessous, graphique de données en bas à droite. » Le modèle répond bien aux prompts structurels.
  4. Passez au bilingue — si vous avez besoin de texte en chinois et en anglais, incluez les deux dans le prompt. Le modèle gère le rendu en langue mixte avec précision.

Pourquoi choisir WaveSpeedAI pour Qwen Image 2.0

  • Pas de démarrages à froid — inférence toujours active pour une génération et une édition instantanées.
  • API REST prête pour la production — la même interface wavespeed.run() que vous utilisez déjà pour d’autres modèles.
  • Scalabilité élastique — d’une image à des millions. Montez en charge de manière transparente sans gérer l’infrastructure.
  • Tarification simple — paiement par image, sans abonnements ni minimums.
  • Écosystème Qwen Image complet — accédez à Qwen Image 2.0 aux côtés du Qwen-Image original, Qwen-Image-Max et des variantes LoRA — tout via une seule API.

Foire aux questions

Quelle est la différence entre Qwen Image 2.0 et Qwen Image (v1) ?

Qwen Image 2.0 unifie la génération et l’édition dans un seul modèle (la v1 utilisait des modèles séparés). Il est également 3 fois plus petit (7B contre 20B paramètres), génère en résolution 2K native et offre des scores de benchmark significativement meilleurs dans tous les domaines.

Qwen Image 2.0 peut-il restituer du texte précisément dans les images ?

Oui — c’est la fonctionnalité phare de Qwen Image 2.0. Il restitue des mises en page textuelles complexes incluant des diapositives de présentation, des infographies, des affiches, des menus et des bandes dessinées avec une typographie précise en chinois et en anglais. Il prend en charge des prompts allant jusqu’à 1 000 tokens pour des instructions détaillées de mise en page textuelle.

Comment Qwen Image 2.0 se compare-t-il à FLUX et GPT Image ?

Qwen Image 2.0 est en tête sur DPG-Bench (88,32 contre 83,84 pour FLUX.1 et 85,15 pour GPT Image 1) et GenEval (0,91 contre 0,66 pour FLUX.1). C’est également le seul modèle classé n°1 sur AI Arena pour la génération et l’édition dans l’évaluation humaine à l’aveugle.

Puis-je générer et éditer dans le même flux de travail ?

Oui. Générez une image avec le point d’accès text-to-image, puis envoyez-la au point d’accès d’édition avec des instructions en langage naturel. Le modèle préserve tout ce que vous ne mentionnez pas et modifie uniquement ce que vous spécifiez. Cela permet un raffinement itératif dans un seul pipeline.

Commencez à créer avec Qwen Image 2.0

Qwen Image 2.0 est disponible sur WaveSpeedAI. Le modèle unifié de génération et d’édition d’images classé n°1, avec une résolution 2K native, une typographie professionnelle et une architecture de 7B paramètres plus rapide et moins coûteuse que son prédécesseur.

Inscrivez-vous sur wavespeed.ai, obtenez votre clé API et commencez à générer.

Essayer Qwen Image 2.0 Text-to-Image sur WaveSpeedAI →

Essayer Qwen Image 2.0 Edit sur WaveSpeedAI →