HiDream-O1-Image-Dev: 8B пиксель-нативная модель, превзошедшая FLUX.2 с 56B параметрами
HiDream-O1-Image-Dev — это дистиллированная модель для генерации изображений с 8B параметрами, которая отказалась от VAE и внешнего текстового энкодера, нативно генерирует изображения в разрешении 2K и превосходит модели в 7 раз большего размера по показателям GenEval, DPG и HPSv3.
8 мая 2026 года HiDream-ai опубликовала HiDream-O1-Image под лицензией MIT — и выбор архитектуры стал главной новостью. В то время как почти все недавние модели генерации изображений по тексту основаны на латентном диффузионном трансформере (DiT, работающий на VAE-сжатых токенах с текстом, проходящим через замороженный T5 или CLIP), HiDream-O1 полностью отказывается от латентного стека. Она запускает диффузионный трансформер непосредственно на сырых пикселях, а текст и условия задачи находятся в одном токен-пространстве.
Выпущено два чекпойнта: полная модель HiDream-O1-Image (50 шагов, CFG 5.0) и дистиллированная HiDream-O1-Image-Dev (28 шагов, CFG 0.0). Обе имеют 8 миллиардов параметров. По состоянию на 5 мая 2026 года модель — кодовое имя Peanut — занимает #8 в рейтинге Artificial Analysis Text-to-Image Arena и является самой высокорейтинговой записью с открытыми весами на этой доске.
В этой статье рассматривается, чем именно отличается архитектура, что теряет дистиллированная версия Dev по сравнению с полной моделью, и как заявленные показатели соотносятся с FLUX.2, Qwen-Image и SD 3.5 Large.
Единый трансформер на уровне пикселей
Современные открытые модели изображений практически повсеместно разделяют один рецепт:
- VAE сжимает RGB-изображение 1024×1024 до ~64×64 латентных токенов.
- Текстовый энкодер (T5-XXL, CLIP, Gemma) встраивает подсказку в отдельное векторное пространство.
- DiT выполняет денойзинг латентных токенов с кросс-вниманием к текстовому эмбеддингу.
Это эффективно — диффузия происходит при 1/64 пространственного разрешения — но стек включает три независимо обученных компонента, каждый со своими режимами отказа. Латентные VAE теряют мелкие детали и разливают цвета на границах сжатия. Текстовые энкодеры, обученные для поиска, не обязательно кодируют пространственные рассуждения, необходимые генератору. Кросс-внимание между двумя чужеродными пространствами эмбеддингов — именно там обычно ломается рендеринг текста и точность мелких объектов.
HiDream-O1 сворачивает весь стек. Единый трансформер на уровне пикселей (UiT) рассматривает патчи пикселей, токены текста и токены условий задачи как членов одной общей последовательности. Нет VAE — модель работает с сырыми RGB-патчами. Нет отдельного текстового энкодера — текстовые токены поступают в тот же трансформер. Диффузия происходит непосредственно в пространстве пикселей.
Цена очевидна (больше вычислений на токен, поскольку нельзя выполнить даунсэмплинг 64×), и ответ команды — разреженность и планирование: выпущенный технический отчёт описывает флэш-планировщик с предопределёнными временными шагами, позволяющий варианту Dev сходиться за 28 шагов с нулевым масштабом руководства. Преимущество, если архитектура работает, состоит в том, что все модальности живут в одном представлении — именно то, что нужно, когда одна модель должна выполнять генерацию текст-в-изображение, редактирование по инструкциям, персонализацию с несколькими референсами и создание раскадровки без смены «голов».
Что на самом деле делает HiDream-O1-Image-Dev
Чекпойнт Dev дистиллирован по руководству — он обучен производить выходные данные, кондиционированные CFG, за один прямой проход, поэтому вы устанавливаете guidance_scale=0.0 и пропускаете удвоенные вычисления, которые обычно требует безклассификаторное руководство. Это одно только примерно вдвое сокращает реальное время при любом количестве шагов.
Количество шагов снижается с 50 до 28 по сравнению с полной моделью. В сочетании с экономией CFG, Dev значительно быстрее — собственная формулировка команды «сбалансированный компромисс между качеством и вычислительными требованиями» соответствует позиционированию варианта I1 Dev годом ранее.
Возможности, поддерживаемые одним чекпойнтом:
- Генерация текст-в-изображение при нативном разрешении до 2048×2048 (без апскейлера в пайплайне)
- Редактирование по инструкциям (
--ref_images input.jpg --prompt "remove the earphones") - Персонализация на основе объекта — сохранение идентичности по нескольким референсам, принимает 2+ референсных изображения одного субъекта и помещает его в новые контексты
- Рендеринг длинного текста — многоязычный, с заявленными показателями, близкими к паритету на английском и мандаринском LongText-Bench
- Создание раскадровки — последовательные кадры с согласованными персонажами/окружением
Четыре задачи разделяют веса. Между генерацией текст-в-изображение и редактированием нет смены LoRA или загрузки адаптера — достаточно передать --ref_images для переключения режима.
Бенчмарки: где заявление об 8B действительно подтверждается
Технический отчёт сравнивает с очевидными аналогами с открытыми весами (FLUX.2, Qwen-Image, SD 3.5 Large) и сильнейшими закрытыми моделями на бенчмарке человеческих предпочтений. Приведены пять наборов тестов:
| Бенчмарк | Что измеряет | HiDream-O1 (8B) | FLUX.2 Dev (56B) | Qwen-Image (27B) | SD 3.5 Large (13.6B) |
|---|---|---|---|---|---|
| GenEval | Точность компоновки (объекты, счёт, цвет, положение) | 0.90 | 0.87 | 0.87 | 0.71 |
| DPG-Bench | Соответствие подробным подсказкам | 89.83 | 87.57 | 88.32 | 84.08 |
| HPSv3 | Человеческие предпочтения (12 категорий) | 10.37 | 9.28 | 9.94 | — |
| CVTG-2K | Сложный визуальный текст (2–5 регионов) | 0.9128 | 0.8926 | 0.8288 | 0.6548 |
| LongText-Bench | Многоязычный рендеринг длинного текста | 0.979 EN / 0.978 ZH | — | — | — |
Два момента выделяются. Во-первых, HiDream-O1 выигрывает каждый из заявленных бенчмарков, будучи в 7 раз меньше FLUX.2 Dev и в 3.4 раза меньше Qwen-Image. Количество параметров больше не является чистым показателем качества, когда архитектура и состав данных расходятся. Во-вторых, показатели рендеринга текста наиболее интересны — CVTG-2K и LongText-Bench специально нагружают режим отказа, в котором модели латентного пространства исторически ломаются, и пиксельно-нативная конструкция HiDream-O1 — именно такой тип изменений, который должен помочь. Разрыв 0.979 / 0.978 EN/ZH предполагает, что выигрыш — не артефакт английской токенизации.
Показатель HPSv3 (10.37/12) ставит её впереди DALL-E 3 и GPT Image 2 в таблицах отчёта — сравнение закрытых и открытых моделей, которое было немыслимо в этом размерном классе двенадцать месяцев назад.
Агент подсказок на основе рассуждений
В комплекте с релизом идёт отдельный агент подсказок — не часть диффузионной модели, а обёртка, которая запускает Gemma-4-31B-it (или любой совместимый с OpenAI API) над инструкцией пользователя перед генерацией. Агент выводит JSON с тремя полями: трасса рассуждений, разрешённые неявные знания (например, «пользователь сказал “генерал эпохи Тан” — это означает определённый стиль доспехов и оружия») и уточнённая подсказка с явными спецификациями макета/рендеринга текста.
Это тот же паттерн, что и переписчик подсказок GPT-4 для DALL-E 3 и интеграция Gemini для Imagen 3, но поставляется как отдельный, заменяемый компонент, который можно запускать локально. Для подсказок, где важны рассуждения о макете — многорегиональный текст, конкретные пространственные отношения, культурная специфика — предварительный запуск агента закрывает разрыв с закрытыми системами, в которых по умолчанию есть LLM в пайплайне.
Локальный запуск
Репозиторий прост:
git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt
Генерация текст-в-изображение с Dev:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
--output_image results/output.png
Редактирование с референсным изображением:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "remove the earphones" \
--ref_images input.jpg \
--output_image results/edited.png
Персонализация на основе объекта работает аналогично — передайте несколько референсных изображений одного субъекта:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--prompt "A young boy stands on steps wearing light blue jeans..." \
--ref_images ref1.jpg ref2.jpg ref3.jpg \
--output_image results/personalized.png
Также включена веб-демонстрация (python app.py --model_path ... --port 7860).
Flash attention рекомендован, но не обязателен — в models/pipeline.py есть задокументированное однострочное изменение, если он недоступен. VRAM масштабируется с выходным разрешением; генерация 2K×2K — это заявленная возможность модели, но требует значительного объёма памяти.
Чем отличается от HiDream-I1
Оригинальная HiDream-I1, выпущенная в начале 2025 года, была 17B разреженным MoE DiT, работающим в латентном пространстве — архитектурно традиционная, конкурирующая по качеству. O1 — это сброс: количество параметров снижается до 8B, VAE и текстовый энкодер убираются, и сама архитектура является вкладом. Соглашение об именовании также явно перекликается с ребрендингом моделей рассуждения OpenAI — «O1» сигнализирует об интегрированном агенте подсказок с рассуждением, даже если сама диффузионная модель является стандартным однопроходным сэмплером.
Если сегодня выбирать между ними: I1 Dev старше, хорошо поддерживается на платформах вывода и проверена в продакшне. O1 Dev новее, меньше, набирает больше очков по каждому заявленному бенчмарку и значительно надёжнее рендерит текст — но пиксельно-нативная архитектура достаточно нова, чтобы сторонний инструментарий (ноды ComfyUI, квантизации, скрипты обучения LoRA) требовал времени для наверстывания.
Место в экосистеме
HiDream-O1-Image-Dev — наиболее архитектурно интересный релиз модели изображений с открытыми весами в 2026 году на сегодняшний день. Команда сделала нонконформистскую ставку — отказаться от латентного пространства, от внешних энкодеров, делать всё в одном трансформере — и бенчмарки подтверждают эту ставку, особенно в долгохвостовых категориях (рендеринг текста, сложная компоновка, многоязычность), где латентные модели исторически испытывали трудности.
Вариант Dev в частности — тот, который большинство людей действительно будет запускать: 28 шагов, без CFG, лицензия MIT, многозадачный с одним чекпойнтом. Если вы ждали открытую модель, сопоставимую с GPT Image 2 или DALL-E 3 по качеству текста в изображении без цены закрытого API, — это она.
Репозиторий находится по адресу github.com/HiDream-ai/HiDream-O1-Image, веса Dev — по адресу huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, а размещённый Space доступен для тестирования без локальной установки.
