Что такое Qwen Image 2.0? Архитектура, возможности и бенчмарки (2026)

Команда Alibaba Qwen официально выпустила Qwen-Image-2.0 10 февраля 2026 года — базовую модель нового поколения для работы с изображениями, объединяющую генерацию изображений по тексту и редактирование изображений в единой архитектуре. Она занимает первое место в рейтинге AI Arena ELO по обеим задачам.

В этой статье рассматриваются архитектура, ключевые функции, производительность на бенчмарках и то, что делает Qwen Image 2.0 значимым шагом вперёд в области генерации изображений с помощью ИИ.

Краткие характеристики

Параметр	Qwen Image 2.0
Параметры	7B (сокращено с 20B в v1)
Максимальное разрешение	2048 × 2048 (нативное 2K)
Максимальная длина промпта	1000 токенов
Возможности	Генерация по тексту + редактирование изображений (единая модель)
Рендеринг текста	Профессиональный уровень (китайский + английский)
Архитектура	Энкодер 8B Qwen3-VL → декодер диффузии 7B
Дата выпуска	10 февраля 2026 года

Ключевые функции

1. Профессиональный рендеринг текста

Qwen Image 2.0 способна отображать сложные текстовые компоновки непосредственно по промптам — включая слайды PPT, инфографику, постеры фильмов, календари и комиксы. Модель поддерживает промпты длиной до 1000 токенов, что позволяет задавать исключительно детальные инструкции по компоновке.

Рендеринг текста определяется пятью характеристиками:

Точность — Точный рендеринг на уровне символов на китайском и английском языках
Объёмность — Обработка большого количества текста за одну генерацию
Красота — Интеллектуальная компоновка текста и изображения с правильными отступами и выравниванием
Реалистичность — Текст адаптируется к различным поверхностям (стекло, ткань, бумага, вывески) с корректной перспективой и свойствами материала
Выравнивание — Автоматическое выравнивание текстовых блоков в структурированных компоновках, таких как календари, комиксы и диаграммы данных

2. Нативное разрешение 2K

Модель генерирует изображения с разрешением до 2048 × 2048 пикселей нативно — без масштабирования. Это означает, что мелкие детали, такие как поры кожи, переплетение ткани, архитектурные текстуры и природная листва, воспроизводятся с микроскопической точностью непосредственно в процессе генерации.

3. Единая генерация и редактирование

Предыдущие версии Qwen Image имели отдельные модели для генерации и редактирования. Qwen Image 2.0 объединяет обе функции в единую модель. Та же модель, которая генерирует изображения по тексту, также может:

Редактировать существующие изображения на основе текстовых инструкций
Добавлять текстовые наложения (включая каллиграфию) на фотографии
Выполнять композитинг нескольких изображений
Осуществлять межжанровое редактирование (например, помещать мультяшных персонажей на реальные фотографии)

Такой «омни»-подход означает, что улучшения качества рендеринга текста и фотореализма в равной мере распространяются как на генерацию, так и на редактирование.

4. Более лёгкая архитектура

Несмотря на расширение возможностей, Qwen Image 2.0 сократила количество параметров с 20B до 7B — почти в 3 раза меньше. В архитектуре используется энкодер 8B Qwen3-VL, подающий данные в декодер диффузии 7B, что обеспечивает более высокую скорость инференса при сохранении качества.

Производительность на бенчмарках

Qwen Image 2.0 достигает передовых результатов на множестве бенчмарков:

Бенчмарк	Qwen Image 2.0	GPT Image 1	FLUX.1
GenEval	0.91	—	—
DPG-Bench	88.32	85.15	83.84
AI Arena ELO	#1 (генерация по тексту)	—	—
AI Arena ELO	#1 (редактирование изображений)	—	—

На платформе AI Arena — слепом рейтинге с оценками людей, где судьи сравнивают результаты изображений, не зная, какая модель их создала, — Qwen Image 2.0 занимает первое место как в категории генерации изображений по тексту, так и в категории редактирования изображений.

Что она может генерировать?

Инфографика и визуализация данных

По детальному промпту модель может создавать полноценную инфографику с диаграммами, блок-схемами, таблицами данных и правильно отформатированным двуязычным текстом — за один проход генерации.

Постеры фильмов

Модель воспроизводит кинематографические композиции с несколькими персонажами, сложной типографикой (названия, титры, слоганы, логотипы студий) и реалистичным освещением — с текстом, органично вписанным в материалы и перспективы сцены.

Комиксы

Многопанельные комиксы с пузырями диалогов, последовательными персонажами на всех панелях и правильно центрированным текстом внутри речевых пузырей. Модель автоматически выравнивает текстовые блоки для профессионального вида.

Каллиграфия и искусство

Поддержка нескольких стилей китайской каллиграфии (обычное письмо, тонкое золотое письмо, малое обычное письмо) с реалистичной симуляцией мазков кисти. Модель интеллектуально размещает текст в пустых областях, чтобы не закрывать объекты на изображении.

Фотореалистичные сцены

Высокодетализированные фотореалистичные изображения с точным моделированием сложных пространственных отношений, тонкими текстурами (волосы, ткань, потрескавшаяся земля, лесная листва) и корректной физикой освещения.

Обзор архитектуры

[Энкодер 8B Qwen3-VL] → [Декодер диффузии 7B] → 2048×2048 пикселей

Конвейер использует Qwen3-VL (языковую модель с поддержкой зрения) в качестве энкодера для понимания как текстовых промптов, так и входных изображений, а затем декодер на основе диффузии для генерации результата. Именно это разделение энкодера и декодера обеспечивает единую возможность генерации и редактирования — один и тот же энкодер обрабатывает как промпты только с текстом, так и инструкции по редактированию изображений с текстом.

Хронология развития Qwen Image

Дата	Модель	Фокус
Авг. 2025	Qwen-Image	Точность рендеринга текста
Авг. 2025	Qwen-Image-Edit	Редактирование одного изображения
Сен. 2025	Qwen-Image-Edit-2509	Редактирование нескольких изображений
Дек. 2025	Qwen-Image-2512	Мелкие детали и реализм
Дек. 2025	Qwen-Image-Edit-2511	Улучшение согласованности
Фев. 2026	Qwen-Image-2.0	Единая генерация + редактирование

Qwen Image 2.0 представляет собой слияние двух параллельных направлений разработки — одного, ориентированного на качество генерации, и другого — на возможности редактирования — в единую модель.

Как получить доступ к Qwen Image 2.0

Qwen Image 2.0 в настоящее время доступна для тестирования через API на платформе Alibaba Cloud BaiLian.

Скоро на WaveSpeed — Qwen Image 2.0 будет доступна на WaveSpeedAI с быстрым инференсом, без холодных стартов и с простым доступом через REST API. WaveSpeed уже размещает предыдущие модели Qwen Image, включая Qwen-Image-Edit, Qwen-Image-Edit-Plus и варианты Qwen-Image LoRA.

Следите за обновлениями о доступности на wavespeed.ai.

Часто задаваемые вопросы

Чем Qwen Image 2.0 отличается от Qwen Image 1.0? Три основных изменения: единая генерация + редактирование (ранее отдельные модели), более компактная архитектура (7B против 20B параметров) и значительно улучшенный рендеринг текста с поддержкой промптов в 1K токенов.

Может ли она точно генерировать текст на изображениях? Да — это одна из её сильнейших сторон. Модель воспроизводит китайский и английский текст с высокой точностью в различных форматах, включая инфографику, постеры, каллиграфию и вывески.

Какое разрешение она поддерживает? Нативное 2K (2048 × 2048). Это разрешение генерации, а не масштабирования.

Является ли она открытым исходным кодом? Технический отчёт Qwen-Image доступен на arXiv (2508.02324). Доступ через API предоставляется через Alibaba Cloud BaiLian. Доступность весов для локального развёртывания пока не подтверждена.

Как она сравнивается с FLUX и Midjourney? Qwen Image 2.0 превосходит FLUX.1 на DPG-Bench (88.32 против 83.84) и лидирует в слепой оценке AI Arena. Её возможности рендеринга текста значительно превосходят как FLUX, так и Midjourney. Смотрите наше подробное сравнение для полного анализа.