Воспроизводимый бенчмарк: Qwen Image 2512 vs SDXL vs FLUX для текста в изображении

Привет, все! Я Дора. Недавно я проводила тесты рендеринга текста, сравнивая Qwen Image 2512, SDXL и FLUX друг с другом. Последние три недели я тестировала генерацию текста в изображениях, потому что постоянно слышала утверждения, что “эта модель наконец решает проблему рендеринга текста.” Утверждения звучали громко. Доказательства казались тонкими.

Поэтому я создала воспроизводимый тест, используя Qwen Image 2512, SDXL и FLUX — три модели, которые люди постоянно сравнивают. Я хотела посмотреть, что действительно происходит, когда вы просите их создавать плакаты, меню и смешанные макеты. Не отобранные примеры. Не скриншоты из маркетинга. Просто последовательные тесты с одинаковыми подсказками.

Почему воспроизводимые тесты важны

Большинство сравнений, которые я видела, показывают одиночные примеры. Один красивый плакат из модели A, один сломанный знак из модели B. Это говорит вам, что что-то произошло один раз — но не то, что происходит надежно.

Мне нужно было понять компромиссы. Когда SDXL барахлит? Где сияет FLUX? Что действительно выдает Qwen Image 2512, когда вы давите на неё длинным текстом или сложными макетами?

Согласно документации модели Hugging Face, Qwen Image 2512 улучшает точность рендеринга текста и качество макета, с более чем 10 000 раундами слепых оценок, показывающими её как ведущую модель с открытым исходным кодом. Тем временем, тестирование сообщества показало, что FLUX явно побеждает SDXL в рендеринге текста, генерируя правильный текст в каждом тестовом изображении, в то время как SDXL борется. Но эти оценки не ответили на мой конкретный вопрос: что происходит с макетами плакатов в сравнении с текстом меню в сравнении с графикой для миниатюр?

Настройка теста

Я тестировала все три модели, используя одно и то же оборудование — NVIDIA RTX 4090 с 24GB VRAM. Каждая модель работала с рекомендуемыми настройками, чтобы избежать несправедливых ограничений.

Одинаковый набор подсказок для всех моделей

Всего двадцать подсказок, организованные в четыре категории. Каждая подсказка указывала точное содержание текста, требования к макету и визуальный стиль. Я выполнила каждую подсказку три раза на каждой модели, чтобы поймать несоответствия.

Я не использовала отрицательные подсказки для FLUX, потому что FLUX использует flow matching вместо classifier-free guidance, что означает, что он не поддерживает отрицательное кондиционирование. Чтобы сохранить справедливость сравнения, я пропустила отрицательные подсказки для всех моделей.

Одинаковые соотношения сторон и параметры

Каждый тест использовал разрешение 1024×1024.

SDXL работал на 30 шагов с масштабом CFG 7
FLUX Dev использовал 20 шагов с масштабом guidance 5
Qwen Image 2512 работал на 28 шагов с масштабом guidance 5, который, по данным тестирования сообщества, сбалансирован между качеством и соответствием подсказке

Время генерации варьировалось значительно. SDXL потребовалось около 13 секунд для четырех изображений, в то время как FLUX Dev нужно было 57 секунд — примерно в четыре раза дольше. Qwen Image 2512 был между ними, около 5 секунд на изображение с оптимизированными настройками.

Набор подсказок (открытый исходный код)

Я делюсь полным набором подсказок, потому что воспроизводимость требует видеть фактические тесты. Это не идеальные подсказки — это реальные сценарии, которые я действительно встречаю.

Чтобы облегчить воспроизводимость и расширение сравнений на уровне подсказок, мы также тестируем одни и те же наборы подсказок в различных средах выполнения, включая WaveSpeed, который обеспечивает единый интерфейс для запуска нескольких моделей изображений с сравнимыми параметрами.

Как и все результаты здесь, выходные данные остаются чувствительными к формулировке подсказки, количеству шагов и масштабу guidance — поэтому результаты должны интерпретироваться как направленные, а не абсолютные.

Подсказки плаката (5 примеров)

“Плакат события с жирным названием ‘Summer Festival’ вверху, подзаголовком ‘July 15-17’ ниже, тремя маркированными пунктами с перечислением действий и текстом нижнего колонтитула ‘Register at summerfest.com’”
“Стиль фильма с большим текстом ‘THE LAST HORIZON’ по центру, меньшим текстом ‘Coming Soon’ внизу”
“Объявление о семинаре с заголовком ‘Learn Python in 5 Days’, деталями даты и времени, именем инструктора, информацией о регистрации”
“Концертный плакат с названием группы в декоративном шрифте, деталями места проведения, ценой билетов”
“Макет обложки книги с именем автора, названием в серифном шрифте, подзаголовком, логотипом издателя”

Подсказки для миниатюр (5 примеров)

“YouTube миниатюра с большим текстом ‘TOP 5 TIPS’ и маленьким значком ‘NEW’”
“Миниатюра продукта, показывающая текст ‘50% OFF’ заметно с меньшим ярлыком ‘Limited Time’”
“Миниатюра курса с названием ‘Advanced AI’ и индикатором сложности ‘Expert Level’”
“Миниатюра рецепта с названием блюда и значком ‘Ready in 30 min’”
“Новостная миниатюра с заголовком и тегом ‘BREAKING‘“

Подсказки меню/знаков (5 примеров)

“Доска меню кофейни с пятью позициями, ценами и заголовком ‘Daily Specials’”
“Вывеска ресторана с текстом ‘Now Open’ и указанным ниже расписанием работы”
“Витрина магазина с текстом ‘Grand Opening’ и информацией о дате”
“Меню кафе на доске с тремя разделами и декоративными бордюрами”
“Розничная вывеска с текстом ‘Clearance Sale’ и процентными скидками”

Подсказки со смешанным контентом (5 примеров)

“Инфографика с названием, тремя нумерованными шагами и итоговым блоком”
“Пост в социальных сетях с текстом цитаты, наложенным на градиентный фон”
“Слайд презентации с маркированными пунктами и текстом нижнего колонтитула”
“Макет журнала с заголовком, предпросмотром текста и номерами страниц”
“Объявление с названием продукта, списком функций и призывом к действию”

Критерии оценки

Я оценивала каждый выход по четырем параметрам, используя шкалу от 1 до 5. Я не использовала автоматическую OCR, потому что хотела поймать проблемы макета, которые упускает чистое распознавание символов.

Читаемость текста (1–5)

Можете ли вы читать каждое слово без напряжения глаз? Правильно ли сформированы символы? Буквы размываются или показывают артефакты?

Оценка 5: Каждый символ четкий и разборчивый. Нет орфографических ошибок, слитых букв, отсутствующих штрихов.
Оценка 3: Большинство текста читаемо, но имеет небольшие проблемы — легкое размытие, иногда путаница символов.
Оценка 1: Текст в основном нечитаем или содержит серьезные орфографические ошибки.

Точность макета (1–5)

Появляется ли текст там, где это указано в подсказке? Соблюдаются ли иерархии — заголовки больше, чем основной текст, правильное расстояние между элементами?

Qwen Image 2512 произвел на меня впечатление здесь. Согласно документации тестирования, это улучшает качество макета и многомодальную композицию, что уменьшает количество переделок для сложных дизайнов.

Визуальная верность (1–5)

Помимо читаемого текста, выглядит ли общее изображение связным? Подходят ли шрифты к контексту? Интегрируется ли текст естественно с фоновыми элементами?

Здесь различия стали очевидными. Некоторые модели отображали идеальный текст на несвязном фоне. Другие создавали красивые изображения с разбитым текстом.

Общая эстетика (1–5)

Вы действительно использовали бы этот выход? Выглядит ли он законченным или нуждается в значительной постобработке?

Сводка результатов

После 180 всего поколений (20 подсказок × 3 модели × 3 попытки), паттерны проявились, которые удивили меня.

Где Qwen Image 2512 побеждает

Макеты плакатов с более чем 50 символами. Когда я просила создавать плакаты событий с несколькими текстовыми блоками, Qwen Image 2512 постоянно правильно размещала элементы. Текст оставался четким даже с длинными строками.

Модель делает упор на качество рендеринга текста с более четкими символами, стабильным междустрочным расстоянием и предсказуемым выравниванием — особенно ценно для маркетинговых визуальных материалов и дизайн-макетов. Я заметила это особенно в контексте смешанного китайско-английского содержания, хотя мои тесты были сосредоточены на английском.

Скорость была заметна. Пять секунд на изображение означало, что я могла быстро перебирать варианты без потери качества. Это имеет значение, когда вы уточняете дизайн через несколько попыток.

Где SDXL побеждает

Художественные стили и быстрая итерация. Когда подсказки подчеркивали стиль над точностью текста — “retro poster aesthetic” или “vintage sign look” — SDXL обеспечивала более последовательную художественную интерпретацию. Двойной архитектурный подход SDXL с базовыми и рафинирующими моделями дает ему сильную эстетическую производительность, особенно для стилизованного содержания. Преимущество экосистемы также важно: больше LoRA, больше ControlNet опций, больше ресурсов сообщества.

Скорость генерации дала SDXL преимущество для черновых вариантов. 13 секунд для четырех изображений лучше, чем ждать минуту, когда вы только исследуете концепции.

Где FLUX побеждает

Короткий текст со сложными подсказками. Для миниатюр и простых знаков FLUX Dev редко ошибалась в орфографии. Тестирование сообщества показывает, что FLUX превосходит в кернинге, расстоянии и воспроизведении стиля шрифта, создавая четкий текст, который соответствует профессиональным типографским стандартам.

Кодировщик T5, кажется, имеет значение. FLUX использует технологию T5 из языковых моделей Google, которая улучшает понимание сложных подсказок и качество рендеринга текста.

Но FLUX борался с более длинными текстовыми блоками. После примерно 30 символов точность заметно упала. И независимое тестирование подтвердило, что, хотя FLUX показывает улучшения по сравнению с более ранними моделями, выходные данные часто не достигают безупречных примеров в маркетинговых материалах.