HiDream-O1-Image-Dev: O Modelo Nativo de Pixel com 8B que Superou o FLUX.2 de 56B
HiDream-O1-Image-Dev é um modelo de imagem destilado com 8B parâmetros que elimina o VAE e o codificador de texto externo, gera imagens em 2K nativamente e supera modelos 7x maiores no GenEval, DPG e HPSv3.
Em 8 de maio de 2026, a HiDream-ai tornou o HiDream-O1-Image open-source sob a licença MIT — e a escolha arquitetural é o destaque. Enquanto quase todos os modelos recentes de texto para imagem são difusores latentes (DiT operando em tokens comprimidos por VAE, com texto roteado por um T5 ou CLIP congelado), o HiDream-O1 elimina completamente a pilha latente. Ele executa o transformador de difusão em pixels brutos, com texto e condições de tarefa compartilhando o mesmo espaço de tokens.
Dois checkpoints foram lançados: o completo HiDream-O1-Image (50 passos, CFG 5,0) e o destilado HiDream-O1-Image-Dev (28 passos, CFG 0,0). Ambos têm 8B de parâmetros. Em 5 de maio de 2026, o modelo — com o codinome Peanut — ocupa a 8ª posição na Artificial Analysis Text-to-Image Arena, sendo a entrada open-weight mais bem classificada da tabela.
Este artigo percorre o que realmente diferencia a arquitetura, o que a destilação Dev sacrifica em relação ao modelo completo, e como os benchmarks reportados se comparam ao FLUX.2, Qwen-Image e SD 3.5 Large.
O Transformador Unificado em Nível de Pixel
Os modelos de imagem open-source modernos compartilham quase universalmente uma receita:
- Um VAE comprime 1024×1024 RGB em ~64×64 tokens latentes.
- Um codificador de texto (T5-XXL, CLIP, Gemma) incorpora o prompt em um espaço vetorial separado.
- Um DiT remove o ruído dos tokens latentes, com atenção cruzada ao embedding de texto.
Isso é eficiente — a difusão acontece em 1/64 da resolução espacial — mas empilha três componentes treinados de forma independente, cada um com seus próprios modos de falha. Os VAEs latentes perdem detalhes finos e sangram cores nas fronteiras de compressão. Os codificadores de texto treinados para recuperação não necessariamente codificam o raciocínio espacial que um gerador precisa. A atenção cruzada entre dois espaços de embedding distintos é onde a renderização de texto e a precisão de objetos pequenos costumam quebrar.
O HiDream-O1 colapsa a pilha. O Transformador Unificado em Nível de Pixel (UiT) trata patches de pixel, tokens de texto e tokens de condição de tarefa como membros de uma sequência compartilhada. Não há VAE — o modelo opera em patches RGB brutos. Não há codificador de texto separado — os tokens de texto fluem para o mesmo transformador. A difusão acontece diretamente no espaço de pixels.
O custo é óbvio (mais computação por token, já que não é possível fazer downsample em 64×) e a resposta da equipe é esparsidade e agendamento — o relatório técnico publicado descreve um agendador flash com timesteps predefinidos que permite à variante Dev convergir em 28 passos com escala de guidance 0. O benefício, se a arquitetura funcionar, é que cada modalidade vive em uma única representação, o que é exatamente o que se quer quando o mesmo modelo precisa fazer texto para imagem, edição guiada por instrução, personalização com múltiplas referências e geração de storyboard sem trocas de cabeçalho.
O que o HiDream-O1-Image-Dev realmente faz
O checkpoint Dev é destilado por guidance — treinado para produzir saídas condicionadas por CFG em um único passe forward, então você define guidance_scale=0.0 e elimina o custo computacional dobrado que o guidance livre de classificador normalmente exige. Isso sozinho reduz aproximadamente pela metade o tempo total a qualquer contagem de passos.
A contagem de passos cai de 50 para 28 em comparação com o modelo completo. Combinado com a economia de CFG, o Dev é significativamente mais rápido — o próprio enquadramento da equipe é “equilíbrio entre qualidade e demanda computacional”, o que corresponde ao posicionamento da variante I1 Dev um ano antes.
Capacidades suportadas pelo mesmo checkpoint:
- Texto para imagem em até 2048×2048 de resolução nativa (sem upscaler no pipeline)
- Edição baseada em instrução (
--ref_images input.jpg --prompt "remova os fones de ouvido") - Personalização orientada por sujeito — preservação de identidade com múltiplas referências, aceita 2+ imagens de referência do mesmo sujeito e os coloca em novos contextos
- Renderização de texto longo — multilíngue, com pontuações de quase paridade reportadas no LongText-Bench em inglês e mandarim
- Geração de storyboard — quadros sequenciais com personagens/cenário consistentes
As quatro tarefas compartilham pesos. Não há troca de LoRA ou carregamento de adaptador entre texto para imagem e edição — basta passar --ref_images para alternar entre os modos.
Benchmarks: onde a afirmação de 8B realmente se sustenta
O relatório técnico compara com os concorrentes open-weight óbvios (FLUX.2, Qwen-Image, SD 3.5 Large) e os modelos fechados mais fortes no benchmark de preferência humana. Cinco suítes são reportadas:
| Benchmark | O que mede | HiDream-O1 (8B) | FLUX.2 Dev (56B) | Qwen-Image (27B) | SD 3.5 Large (13,6B) |
|---|---|---|---|---|---|
| GenEval | Precisão composicional (objetos, contagem, cor, posição) | 0,90 | 0,87 | 0,87 | 0,71 |
| DPG-Bench | Alinhamento com prompt denso | 89,83 | 87,57 | 88,32 | 84,08 |
| HPSv3 | Preferência humana (12 categorias) | 10,37 | 9,28 | 9,94 | — |
| CVTG-2K | Texto visual complexo (2–5 regiões) | 0,9128 | 0,8926 | 0,8288 | 0,6548 |
| LongText-Bench | Renderização de texto longo multilíngue | 0,979 EN / 0,978 ZH | — | — | — |
Dois pontos se destacam. Primeiro, o HiDream-O1 vence todos os benchmarks reportados sendo 7× menor que o FLUX.2 Dev e 3,4× menor que o Qwen-Image. A contagem de parâmetros não é mais um proxy limpo de qualidade quando a arquitetura e a composição de dados divergem. Segundo, os números de renderização de texto são os mais interessantes — CVTG-2K e LongText-Bench estressam especificamente o modo de falha onde os modelos em espaço latente historicamente colapsam, e o design nativo de pixel do HiDream-O1 é exatamente o tipo de mudança que deveria ajudar nisso. A divisão 0,979/0,978 EN/ZH sugere que o ganho não é uma peculiaridade da tokenização do inglês.
O número do HPSv3 (10,37/12) coloca-o à frente do DALL-E 3 e do GPT Image 2 nas tabelas do relatório — uma comparação fechado vs. aberto que era impensável nessa faixa de tamanho há doze meses.
O Agente de Prompt Orientado por Raciocínio
Incluído no lançamento está um agente de prompt separado — não é parte do modelo de difusão, mas um wrapper que executa o Gemma-4-31B-it (ou qualquer API compatível com OpenAI) sobre a instrução do usuário antes da geração. O agente produz JSON com três campos: rastro de raciocínio, conhecimento implícito resolvido (ex.: “o usuário disse ‘um general da Dinastia Tang’ — isso significa um estilo específico de armadura e armas”) e um prompt refinado com especificações explícitas de layout/renderização de texto.
Esse é o mesmo padrão do reescritor de prompt GPT-4 do DALL-E 3 e da integração Gemini do Imagen 3, mas lançado como um componente separado e substituível que você pode executar localmente. Para prompts onde o raciocínio de layout importa — texto multi-região, relações espaciais específicas, especificidade cultural — executar o agente primeiro é o que fecha a lacuna em relação aos sistemas de fonte fechada que têm um LLM no pipeline por padrão.
Executando localmente
O repositório é direto:
git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt
Texto para imagem com Dev:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
--output_image results/output.png
Edição com uma imagem de referência:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "remove the earphones" \
--ref_images input.jpg \
--output_image results/edited.png
A personalização orientada por sujeito funciona da mesma forma — passe múltiplas imagens de referência do mesmo sujeito:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--prompt "A young boy stands on steps wearing light blue jeans..." \
--ref_images ref1.jpg ref2.jpg ref3.jpg \
--output_image results/personalized.png
Uma demonstração web (python app.py --model_path ... --port 7860) também está incluída.
A atenção flash é recomendada, mas não obrigatória — há uma mudança de uma linha documentada em models/pipeline.py caso não esteja disponível. A VRAM escala com a resolução de saída; a geração 2K×2K é a capacidade destaque do modelo, mas exige memória substancial.
Como difere do HiDream-I1
O HiDream-I1 original, lançado no início de 2025, era um DiT esparso-MoE de 17B operando em espaço latente — arquiteturalmente convencional, competindo em qualidade. O O1 é um reinício: a contagem de parâmetros cai para 8B, o VAE e o codificador de texto são removidos, e a própria arquitetura é a contribuição. A convenção de nomenclatura também é uma referência clara ao rebranding de modelo de raciocínio da OpenAI — “O1” sinaliza o agente integrado de raciocínio de prompt, embora o modelo de difusão em si seja um amostrador padrão de passe único.
Se você estiver escolhendo entre eles hoje: o I1 Dev é mais antigo, bem suportado nas plataformas de inferência e comprovado em produção. O O1 Dev é mais recente, menor, pontua mais alto em todos os benchmarks que a equipe reportou e renderiza texto de forma muito mais confiável — mas a arquitetura nativa de pixel é suficientemente nova para que as ferramentas de terceiros (nós ComfyUI, quantizações, scripts de treinamento LoRA) levem tempo para se atualizar.
Onde se encaixa
O HiDream-O1-Image-Dev é o lançamento de modelo de imagem open-weight mais interessante arquiteturalmente de 2026 até agora. A equipe fez uma aposta contrária — eliminar o espaço latente, eliminar os codificadores externos, fazer tudo em um único transformador — e os benchmarks validam a aposta, especialmente nas categorias de longa cauda (renderização de texto, composição complexa, multilíngue) onde os modelos latentes historicamente tiveram dificuldades.
A variante Dev especificamente é a que a maioria das pessoas realmente executará: 28 passos, sem CFG, licença MIT, multi-tarefa em checkpoint único. Se você tem esperado por um modelo open-source que corresponda ao GPT Image 2 ou DALL-E 3 em qualidade de texto em imagem sem o preço de API fechada, este é o momento.
O repositório está em github.com/HiDream-ai/HiDream-O1-Image, os pesos Dev estão em huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, e um Space hospedado está disponível para experimentar sem a instalação local.
