← Блог

Как использовать Qwen Image 2.0: руководство по генерации изображений, редактированию и отрисовке текста (2026)

Пошаговое руководство по использованию Qwen Image 2.0 для генерации изображений по тексту, редактирования изображений и профессиональной отрисовки текста. Включает примеры промптов и лучшие практики.

8 min read

Qwen Image 2.0 — это новейшая модель генерации изображений от Alibaba, объединяющая создание изображений по тексту и редактирование изображений в единой архитектуре с 7 миллиардами параметров. Её ключевая особенность — рендеринг текста профессионального уровня: способность генерировать изображения с точным, хорошо отформатированным текстом прямо из промптов.

Это руководство охватывает все три возможности с практическими примерами промптов, которые вы можете адаптировать для своих проектов.


Что умеет Qwen Image 2.0

ВозможностьОписание
Генерация по текстуСоздание изображений из текстовых описаний в нативном разрешении 2K
Редактирование изображенийИзменение существующих изображений с помощью текстовых инструкций
Рендеринг текстаГенерация изображений с точным, отформатированным текстом (плакаты, инфографика, комиксы)

Все три возможности обрабатываются одной и той же моделью — никакого переключения между инструментами или пайплайнами.


Генерация изображений по тексту

Базовый промпт

Для стандартной генерации изображений напишите описательный промпт, как и для любой другой модели text-to-image:

Современное стеклянное офисное здание, отражающее закатные облака,
снято с уровня улицы с широкоугольным объективом,
тёплое освещение золотого часа, фотореализм

Детальный промпт для максимального качества

Qwen Image 2.0 поддерживает промпты длиной до 1000 токенов. Более длинные и детализированные промпты дают лучшие результаты:

Фотореалистичная летняя лесная сцена. Высокие дубы и буки
образуют основной полог с тёмно-зелёными листьями с восковыми
отражениями на поверхности. Солнечный свет фильтруется сквозь
просветы, создавая видимые пучки Тиндаля с тёплыми золотистыми
краями. На переднем плане — толстые слои мха с каплями утренней
росы. Фон растворяется в сине-зелёном тумане. Общее освещение
соответствует косым лучам солнца в 10 утра с умеренным контрастом.
Более 20 различных оттенков зелёного на разных материалах
(восковые, бархатные, кожистые, желеобразные текстуры).

Советы для улучшения генерации

  • Будьте конкретны в описании освещения — «золотой час, солнце сверху слева под углом 45 градусов» работает лучше, чем «хорошее освещение»
  • Описывайте материалы и текстуры — «потёртый серо-зелёный средневековый плащ с видимыми прорехами и пятнами грязи» даёт более реалистичный результат
  • Используйте весь лимит токенов — Qwen Image 2.0 выигрывает от детальных промптов больше, чем большинство моделей
  • Указывайте пространственные отношения — модель хорошо справляется со сложными пространственными рассуждениями

Рендеринг текста в изображениях

Именно здесь Qwen Image 2.0 по-настоящему выделяется. Модель умеет генерировать изображения с точным, хорошо отформатированным текстом.

Создание слайдов / презентаций

Создайте полный слайд презентации:

Слайд с тёмно-синим градиентным фоном. Заголовок: "Project Timeline".
Ниже — светящаяся временная шкала с несколькими узлами. Первый узел:
"2025-05 Начало проекта". Разветвляется на два трека: верхний трек
с меткой "Development" с узлами "2025-08 Alpha" и "2025-12 Beta".
Нижний трек с меткой "Design" с узлами "2025-08 Wireframes" и
"2025-10 Final UI". Оба трека сходятся в "2026-02 Launch" с
выраженным эффектом свечения.

Инфографика / Визуализация данных

Инфографика результатов A/B-тестирования с тремя колонками. Левая
колонка: "Test Overview" с ростом выручки "+$47,000/month" крупным
зелёным текстом, ROI "1:4.8" и оценкой масштабируемости "4.7/5"
с зелёной шкалой прогресса. Средняя колонка: "Statistical Analysis"
со схемой: Цель теста → Дизайн варианта → Распределение трафика →
Ключевые метрики → Проверка значимости → Результаты. Правая колонка:
"Business Impact" со сравнительной таблицей Control A и Variant B.

Постер к фильму

Реалистичный постер к фильму "The Last Light". Тёмная атмосферная
композиция с пятью персонажами в кинематографическом освещении.
В центре: молодой человек в тёмных одеждах, держащий свиток.
Вверху: логотипы студии в тиснёном золоте. По центру заголовок
"THE LAST LIGHT" объёмным гравированным металлическим шрифтом
с едва заметной патиной. Под заголовком: "March 15 — Truth Revealed"
серебром. Внизу: плотные производственные титры мелким шрифтом с
засечками. Весь текст органично вписан в материалы и освещение сцены.

Панели комикса

Сетка комикса 2×3 (2 ряда, 3 колонки) с белыми разделительными
линиями. Панель 1: Захламлённая лаборатория, мальчик в очках (Чжи)
паяет светящийся зелёный шар. Речевой пузырь: "Готово! Эко-сфера!"
Панель 2: Робот подаёт Чжи кофе. Речевой пузырь: "Пора отдохнуть.
Соревнование завтра." Панель 3: Крупный план зелёного шара с
крохотными растениями внутри. Панель 4: Замаскированный человек
в чёрном костюме смотрит на экран. Речевой пузырь: "Этот мальчишка
думает, что обгонит меня?" Панель 5: Мальчик врывается и обнаруживает
исчезновение шара. Речевой пузырь: "Нет! Он пропал!" Панель 6: Робот
похлопывает мальчика по плечу, на экране — решительное выражение лица.
Речевой пузырь: "Не сдавайся. У нас ещё есть время!"

Советы по рендерингу текста

  • Берите точный текст в кавычки — модель точно воспроизводит строки в кавычках
  • Указывайте стиль шрифта там, где это важно — «жирный без засечек», «элегантный с засечками», «рукописный»
  • Описывайте структуру макета — «три колонки», «заголовок по центру», «основной текст по левому краю»
  • Упоминайте расположение текста — «в верхнем левом углу», «по центру внизу», «вдоль левого поля»
  • Используйте LLM для расширения промпта — напишите простую инструкцию, затем попросите LLM развернуть её в детальный промпт

Редактирование изображений

Qwen Image 2.0 выполняет редактирование той же моделью, что используется для генерации. Предоставьте исходное изображение и текстовую инструкцию.

Добавление текста к фотографиям

Загрузите фотографию и дайте модели инструкцию добавить текст:

Добавь стихотворение в верхнем левом углу, написанное каллиграфией
сверху вниз, справа налево: "Река течёт на восток,
смывая героев минувших эпох."

Создание вариаций поз

Из одного портрета создайте несколько поз:

Создай сетку 3×3 с различными фотографическими позами
одного и того же человека

Компоновка из нескольких изображений

Объедините элементы из нескольких исходных изображений:

Объедини человека с Изображения 1 и человека с Изображения 2
в естественное групповое фото. Оба стоят рядом,
на расстоянии 30 см, используя фон с Изображения 2. Объектив 50 мм,
f/4.0, тёплое естественное освещение, без видимых швов монтажа.

Межжанровое редактирование

Смешайте реальные фотографии с иллюстрированными элементами:

Используй городскую фотографию как основу. Оставь все реальные
здания, улицы и транспортные средства без изменений. Добавь трёх
мультипликационных персонажей вокруг зданий — один сидит сверху,
один выглядывает справа, один сидит на земле впереди. Персонажи
должны быть в плоском графическом стиле с чёткими контурами,
как иллюстрации на муралах.

Лучшие практики инженерии промптов

1. Структурируйте сложные промпты

Для изображений с большим количеством текста структурируйте промпт по разделам:

[ОБЩИЙ МАКЕТ]: Опишите общую композицию
[ТЕКСТОВОЕ СОДЕРЖИМОЕ]: Укажите в кавычках точный текст для рендеринга
[ВИЗУАЛЬНЫЕ ЭЛЕМЕНТЫ]: Опишите изображения, графики, иконки
[СТИЛЬ]: Укажите шрифты, цвета, материалы

2. Используйте LLM для расширения промпта

Начните с простой идеи и позвольте LLM развернуть её:

Просто: «Создай туристический постер для двухдневной поездки в Ханчжоу»

Расширено LLM: Детальный промпт на 500+ токенов с конкретными достопримечательностями, маршрутами, двуязычным текстом, структурой макета и визуальным стилем — который Qwen Image 2.0 сможет точно отрендерить.

3. Используйте лимит в 1K токенов

Не бойтесь писать длинные промпты. Qwen Image 2.0 реально работает лучше с большим количеством деталей:

  • Указывайте точное текстовое содержимое в кавычках
  • Точно описывайте пространственные позиции
  • Включайте детали материалов и освещения
  • Определяйте цветовые палитры и стили шрифтов

4. Соображения по разрешению

Модель генерирует в нативном разрешении 2K (2048 × 2048). Для лучших результатов:

  • Используйте детальные промпты, использующие преимущества высокого разрешения
  • Включайте описания микродеталей (текстуры, свойства поверхностей)
  • Укажите, нужна ли вам портретная или альбомная ориентация

Доступ к API

Сейчас: Alibaba Cloud BaiLian

Qwen Image 2.0 в настоящее время доступен для тестирования по приглашению через API на платформе BaiLian от Alibaba Cloud.

Скоро: WaveSpeedAI

Qwen Image 2.0 будет доступен на WaveSpeedAI с:

  • Без холодных стартов — мгновенный инференс
  • Быстрая генерация — оптимизировано для производственных нагрузок
  • Простой REST API — стандартные HTTP-эндпоинты
  • Оплата за изображение — без подписки

WaveSpeed уже размещает предыдущие модели Qwen Image:

МодельЭндпоинт
Qwen-Image-Editwavespeed.ai/models/wavespeed-ai/qwen-image/edit
Qwen-Image-Edit-Pluswavespeed.ai/docs
Qwen-Image LoRAwavespeed.ai/docs

Подробности об эндпоинте Qwen Image 2.0 будут объявлены при запуске. Следите за обновлениями на wavespeed.ai.


Часто задаваемые вопросы

Нужен ли мне мощный GPU для использования Qwen Image 2.0? Нет — получите к нему доступ через API (сейчас Alibaba Cloud BaiLian, скоро WaveSpeed). Модель с 7 миллиардами параметров легче предыдущей версии на 20 миллиардов параметров, что делает её более практичной для локального развёртывания после публикации весов.

Какие языки поддерживает рендеринг текста? Китайский и английский поддерживаются в полном объёме с высокой точностью. Модель обрабатывает двуязычный контент в одном изображении.

Может ли она создавать логотипы? Да, модель может создавать текстовые логотипы и элементы брендинга. Для точной работы с брендом может потребоваться несколько итераций для получения точного стиля.

Сколько времени занимает генерация? Типичная генерация через API занимает несколько секунд. Архитектура с 7 миллиардами параметров значительно быстрее предыдущей модели с 20 миллиардами.

Можно ли использовать её в коммерческих проектах? Проверьте условия лицензии Qwen-Image на права коммерческого использования. Использование API через платформы вроде WaveSpeed регулируется стандартными условиями коммерческого API.

В чём разница между Qwen Image 2.0 и Qwen Image Edit? Qwen Image 2.0 — это унифицированная модель, которая обрабатывает как генерацию, так И редактирование. Предыдущие модели (Qwen-Image, Qwen-Image-Edit) были раздельными. Версия 2.0 также обладает значительно улучшенным рендерингом текста и выдаёт результат в более высоком разрешении.

Поделиться