HiDream-O1-Image-Dev: 8B пиксель-нативная модель, превзошедшая FLUX.2 с 56B параметрами

8 мая 2026 года HiDream-ai опубликовала HiDream-O1-Image под лицензией MIT — и выбор архитектуры стал главной новостью. В то время как почти все недавние модели генерации изображений по тексту основаны на латентном диффузионном трансформере (DiT, работающий на VAE-сжатых токенах с текстом, проходящим через замороженный T5 или CLIP), HiDream-O1 полностью отказывается от латентного стека. Она запускает диффузионный трансформер непосредственно на сырых пикселях, а текст и условия задачи находятся в одном токен-пространстве.

Выпущено два чекпойнта: полная модель HiDream-O1-Image (50 шагов, CFG 5.0) и дистиллированная HiDream-O1-Image-Dev (28 шагов, CFG 0.0). Обе имеют 8 миллиардов параметров. По состоянию на 5 мая 2026 года модель — кодовое имя Peanut — занимает #8 в рейтинге Artificial Analysis Text-to-Image Arena и является самой высокорейтинговой записью с открытыми весами на этой доске.

В этой статье рассматривается, чем именно отличается архитектура, что теряет дистиллированная версия Dev по сравнению с полной моделью, и как заявленные показатели соотносятся с FLUX.2, Qwen-Image и SD 3.5 Large.

Единый трансформер на уровне пикселей

Современные открытые модели изображений практически повсеместно разделяют один рецепт:

VAE сжимает RGB-изображение 1024×1024 до ~64×64 латентных токенов.
Текстовый энкодер (T5-XXL, CLIP, Gemma) встраивает подсказку в отдельное векторное пространство.
DiT выполняет денойзинг латентных токенов с кросс-вниманием к текстовому эмбеддингу.

Это эффективно — диффузия происходит при 1/64 пространственного разрешения — но стек включает три независимо обученных компонента, каждый со своими режимами отказа. Латентные VAE теряют мелкие детали и разливают цвета на границах сжатия. Текстовые энкодеры, обученные для поиска, не обязательно кодируют пространственные рассуждения, необходимые генератору. Кросс-внимание между двумя чужеродными пространствами эмбеддингов — именно там обычно ломается рендеринг текста и точность мелких объектов.

HiDream-O1 сворачивает весь стек. Единый трансформер на уровне пикселей (UiT) рассматривает патчи пикселей, токены текста и токены условий задачи как членов одной общей последовательности. Нет VAE — модель работает с сырыми RGB-патчами. Нет отдельного текстового энкодера — текстовые токены поступают в тот же трансформер. Диффузия происходит непосредственно в пространстве пикселей.

Цена очевидна (больше вычислений на токен, поскольку нельзя выполнить даунсэмплинг 64×), и ответ команды — разреженность и планирование: выпущенный технический отчёт описывает флэш-планировщик с предопределёнными временными шагами, позволяющий варианту Dev сходиться за 28 шагов с нулевым масштабом руководства. Преимущество, если архитектура работает, состоит в том, что все модальности живут в одном представлении — именно то, что нужно, когда одна модель должна выполнять генерацию текст-в-изображение, редактирование по инструкциям, персонализацию с несколькими референсами и создание раскадровки без смены «голов».

Что на самом деле делает HiDream-O1-Image-Dev

Чекпойнт Dev дистиллирован по руководству — он обучен производить выходные данные, кондиционированные CFG, за один прямой проход, поэтому вы устанавливаете guidance_scale=0.0 и пропускаете удвоенные вычисления, которые обычно требует безклассификаторное руководство. Это одно только примерно вдвое сокращает реальное время при любом количестве шагов.

Количество шагов снижается с 50 до 28 по сравнению с полной моделью. В сочетании с экономией CFG, Dev значительно быстрее — собственная формулировка команды «сбалансированный компромисс между качеством и вычислительными требованиями» соответствует позиционированию варианта I1 Dev годом ранее.

Возможности, поддерживаемые одним чекпойнтом:

Генерация текст-в-изображение при нативном разрешении до 2048×2048 (без апскейлера в пайплайне)
Редактирование по инструкциям (--ref_images input.jpg --prompt "remove the earphones")
Персонализация на основе объекта — сохранение идентичности по нескольким референсам, принимает 2+ референсных изображения одного субъекта и помещает его в новые контексты
Рендеринг длинного текста — многоязычный, с заявленными показателями, близкими к паритету на английском и мандаринском LongText-Bench
Создание раскадровки — последовательные кадры с согласованными персонажами/окружением

Четыре задачи разделяют веса. Между генерацией текст-в-изображение и редактированием нет смены LoRA или загрузки адаптера — достаточно передать --ref_images для переключения режима.

Бенчмарки: где заявление об 8B действительно подтверждается

Технический отчёт сравнивает с очевидными аналогами с открытыми весами (FLUX.2, Qwen-Image, SD 3.5 Large) и сильнейшими закрытыми моделями на бенчмарке человеческих предпочтений. Приведены пять наборов тестов:

Бенчмарк	Что измеряет	HiDream-O1 (8B)	FLUX.2 Dev (56B)	Qwen-Image (27B)	SD 3.5 Large (13.6B)
GenEval	Точность компоновки (объекты, счёт, цвет, положение)	0.90	0.87	0.87	0.71
DPG-Bench	Соответствие подробным подсказкам	89.83	87.57	88.32	84.08
HPSv3	Человеческие предпочтения (12 категорий)	10.37	9.28	9.94	—
CVTG-2K	Сложный визуальный текст (2–5 регионов)	0.9128	0.8926	0.8288	0.6548
LongText-Bench	Многоязычный рендеринг длинного текста	0.979 EN / 0.978 ZH	—	—	—

Два момента выделяются. Во-первых, HiDream-O1 выигрывает каждый из заявленных бенчмарков, будучи в 7 раз меньше FLUX.2 Dev и в 3.4 раза меньше Qwen-Image. Количество параметров больше не является чистым показателем качества, когда архитектура и состав данных расходятся. Во-вторых, показатели рендеринга текста наиболее интересны — CVTG-2K и LongText-Bench специально нагружают режим отказа, в котором модели латентного пространства исторически ломаются, и пиксельно-нативная конструкция HiDream-O1 — именно такой тип изменений, который должен помочь. Разрыв 0.979 / 0.978 EN/ZH предполагает, что выигрыш — не артефакт английской токенизации.

Показатель HPSv3 (10.37/12) ставит её впереди DALL-E 3 и GPT Image 2 в таблицах отчёта — сравнение закрытых и открытых моделей, которое было немыслимо в этом размерном классе двенадцать месяцев назад.

Агент подсказок на основе рассуждений

В комплекте с релизом идёт отдельный агент подсказок — не часть диффузионной модели, а обёртка, которая запускает Gemma-4-31B-it (или любой совместимый с OpenAI API) над инструкцией пользователя перед генерацией. Агент выводит JSON с тремя полями: трасса рассуждений, разрешённые неявные знания (например, «пользователь сказал “генерал эпохи Тан” — это означает определённый стиль доспехов и оружия») и уточнённая подсказка с явными спецификациями макета/рендеринга текста.

Это тот же паттерн, что и переписчик подсказок GPT-4 для DALL-E 3 и интеграция Gemini для Imagen 3, но поставляется как отдельный, заменяемый компонент, который можно запускать локально. Для подсказок, где важны рассуждения о макете — многорегиональный текст, конкретные пространственные отношения, культурная специфика — предварительный запуск агента закрывает разрыв с закрытыми системами, в которых по умолчанию есть LLM в пайплайне.

Локальный запуск

Репозиторий прост:

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

Генерация текст-в-изображение с Dev:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
    --output_image results/output.png

Редактирование с референсным изображением:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "remove the earphones" \
    --ref_images input.jpg \
    --output_image results/edited.png

Персонализация на основе объекта работает аналогично — передайте несколько референсных изображений одного субъекта:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --prompt "A young boy stands on steps wearing light blue jeans..." \
    --ref_images ref1.jpg ref2.jpg ref3.jpg \
    --output_image results/personalized.png

Также включена веб-демонстрация (python app.py --model_path ... --port 7860).

Flash attention рекомендован, но не обязателен — в models/pipeline.py есть задокументированное однострочное изменение, если он недоступен. VRAM масштабируется с выходным разрешением; генерация 2K×2K — это заявленная возможность модели, но требует значительного объёма памяти.

Чем отличается от HiDream-I1

Оригинальная HiDream-I1, выпущенная в начале 2025 года, была 17B разреженным MoE DiT, работающим в латентном пространстве — архитектурно традиционная, конкурирующая по качеству. O1 — это сброс: количество параметров снижается до 8B, VAE и текстовый энкодер убираются, и сама архитектура является вкладом. Соглашение об именовании также явно перекликается с ребрендингом моделей рассуждения OpenAI — «O1» сигнализирует об интегрированном агенте подсказок с рассуждением, даже если сама диффузионная модель является стандартным однопроходным сэмплером.

Если сегодня выбирать между ними: I1 Dev старше, хорошо поддерживается на платформах вывода и проверена в продакшне. O1 Dev новее, меньше, набирает больше очков по каждому заявленному бенчмарку и значительно надёжнее рендерит текст — но пиксельно-нативная архитектура достаточно нова, чтобы сторонний инструментарий (ноды ComfyUI, квантизации, скрипты обучения LoRA) требовал времени для наверстывания.

Место в экосистеме

HiDream-O1-Image-Dev — наиболее архитектурно интересный релиз модели изображений с открытыми весами в 2026 году на сегодняшний день. Команда сделала нонконформистскую ставку — отказаться от латентного пространства, от внешних энкодеров, делать всё в одном трансформере — и бенчмарки подтверждают эту ставку, особенно в долгохвостовых категориях (рендеринг текста, сложная компоновка, многоязычность), где латентные модели исторически испытывали трудности.

Вариант Dev в частности — тот, который большинство людей действительно будет запускать: 28 шагов, без CFG, лицензия MIT, многозадачный с одним чекпойнтом. Если вы ждали открытую модель, сопоставимую с GPT Image 2 или DALL-E 3 по качеству текста в изображении без цены закрытого API, — это она.

Репозиторий находится по адресу github.com/HiDream-ai/HiDream-O1-Image, веса Dev — по адресу huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, а размещённый Space доступен для тестирования без локальной установки.

Единый трансформер на уровне пикселей

Что на самом деле делает HiDream-O1-Image-Dev

Бенчмарки: где заявление об 8B действительно подтверждается

Агент подсказок на основе рассуждений

Локальный запуск

Чем отличается от HiDream-I1

Место в экосистеме

Похожие статьи

Claude Fable 5 выпущен: 80.3% на SWE-Bench Pro, цена в 2× от Opus 4.8, бесплатно до 22 июня

Reve 2.0: Модель изображений 4K с приоритетом компоновки, бросающая вызов GPT Image 2 и Nano Banana

GPT Image 2 vs FLUX 2 vs Imagen 4: Какой API изображений выбрать разработчикам в 2026 году?

Claude Sonnet 4.8: Что на самом деле говорит утечка и почему паттерн не совпадает

Seedance 2.1 и Seedance 2.0 Mini на подходе: улучшение качества и более низкий ценовой уровень

GPT-5.6 появился в логах Codex от OpenAI — что это на самом деле означает