HiDream-O1-Image-Dev: O Modelo Nativo de Pixel com 8B que Superou o FLUX.2 de 56B

Em 8 de maio de 2026, a HiDream-ai tornou o HiDream-O1-Image open-source sob a licença MIT — e a escolha arquitetural é o destaque. Enquanto quase todos os modelos recentes de texto para imagem são difusores latentes (DiT operando em tokens comprimidos por VAE, com texto roteado por um T5 ou CLIP congelado), o HiDream-O1 elimina completamente a pilha latente. Ele executa o transformador de difusão em pixels brutos, com texto e condições de tarefa compartilhando o mesmo espaço de tokens.

Dois checkpoints foram lançados: o completo HiDream-O1-Image (50 passos, CFG 5,0) e o destilado HiDream-O1-Image-Dev (28 passos, CFG 0,0). Ambos têm 8B de parâmetros. Em 5 de maio de 2026, o modelo — com o codinome Peanut — ocupa a 8ª posição na Artificial Analysis Text-to-Image Arena, sendo a entrada open-weight mais bem classificada da tabela.

Este artigo percorre o que realmente diferencia a arquitetura, o que a destilação Dev sacrifica em relação ao modelo completo, e como os benchmarks reportados se comparam ao FLUX.2, Qwen-Image e SD 3.5 Large.

O Transformador Unificado em Nível de Pixel

Os modelos de imagem open-source modernos compartilham quase universalmente uma receita:

Um VAE comprime 1024×1024 RGB em ~64×64 tokens latentes.
Um codificador de texto (T5-XXL, CLIP, Gemma) incorpora o prompt em um espaço vetorial separado.
Um DiT remove o ruído dos tokens latentes, com atenção cruzada ao embedding de texto.

Isso é eficiente — a difusão acontece em 1/64 da resolução espacial — mas empilha três componentes treinados de forma independente, cada um com seus próprios modos de falha. Os VAEs latentes perdem detalhes finos e sangram cores nas fronteiras de compressão. Os codificadores de texto treinados para recuperação não necessariamente codificam o raciocínio espacial que um gerador precisa. A atenção cruzada entre dois espaços de embedding distintos é onde a renderização de texto e a precisão de objetos pequenos costumam quebrar.

O HiDream-O1 colapsa a pilha. O Transformador Unificado em Nível de Pixel (UiT) trata patches de pixel, tokens de texto e tokens de condição de tarefa como membros de uma sequência compartilhada. Não há VAE — o modelo opera em patches RGB brutos. Não há codificador de texto separado — os tokens de texto fluem para o mesmo transformador. A difusão acontece diretamente no espaço de pixels.

O custo é óbvio (mais computação por token, já que não é possível fazer downsample em 64×) e a resposta da equipe é esparsidade e agendamento — o relatório técnico publicado descreve um agendador flash com timesteps predefinidos que permite à variante Dev convergir em 28 passos com escala de guidance 0. O benefício, se a arquitetura funcionar, é que cada modalidade vive em uma única representação, o que é exatamente o que se quer quando o mesmo modelo precisa fazer texto para imagem, edição guiada por instrução, personalização com múltiplas referências e geração de storyboard sem trocas de cabeçalho.

O que o HiDream-O1-Image-Dev realmente faz

O checkpoint Dev é destilado por guidance — treinado para produzir saídas condicionadas por CFG em um único passe forward, então você define guidance_scale=0.0 e elimina o custo computacional dobrado que o guidance livre de classificador normalmente exige. Isso sozinho reduz aproximadamente pela metade o tempo total a qualquer contagem de passos.

A contagem de passos cai de 50 para 28 em comparação com o modelo completo. Combinado com a economia de CFG, o Dev é significativamente mais rápido — o próprio enquadramento da equipe é “equilíbrio entre qualidade e demanda computacional”, o que corresponde ao posicionamento da variante I1 Dev um ano antes.

Capacidades suportadas pelo mesmo checkpoint:

Texto para imagem em até 2048×2048 de resolução nativa (sem upscaler no pipeline)
Edição baseada em instrução (--ref_images input.jpg --prompt "remova os fones de ouvido")
Personalização orientada por sujeito — preservação de identidade com múltiplas referências, aceita 2+ imagens de referência do mesmo sujeito e os coloca em novos contextos
Renderização de texto longo — multilíngue, com pontuações de quase paridade reportadas no LongText-Bench em inglês e mandarim
Geração de storyboard — quadros sequenciais com personagens/cenário consistentes

As quatro tarefas compartilham pesos. Não há troca de LoRA ou carregamento de adaptador entre texto para imagem e edição — basta passar --ref_images para alternar entre os modos.

Benchmarks: onde a afirmação de 8B realmente se sustenta

O relatório técnico compara com os concorrentes open-weight óbvios (FLUX.2, Qwen-Image, SD 3.5 Large) e os modelos fechados mais fortes no benchmark de preferência humana. Cinco suítes são reportadas:

Benchmark	O que mede	HiDream-O1 (8B)	FLUX.2 Dev (56B)	Qwen-Image (27B)	SD 3.5 Large (13,6B)
GenEval	Precisão composicional (objetos, contagem, cor, posição)	0,90	0,87	0,87	0,71
DPG-Bench	Alinhamento com prompt denso	89,83	87,57	88,32	84,08
HPSv3	Preferência humana (12 categorias)	10,37	9,28	9,94	—
CVTG-2K	Texto visual complexo (2–5 regiões)	0,9128	0,8926	0,8288	0,6548
LongText-Bench	Renderização de texto longo multilíngue	0,979 EN / 0,978 ZH	—	—	—

Dois pontos se destacam. Primeiro, o HiDream-O1 vence todos os benchmarks reportados sendo 7× menor que o FLUX.2 Dev e 3,4× menor que o Qwen-Image. A contagem de parâmetros não é mais um proxy limpo de qualidade quando a arquitetura e a composição de dados divergem. Segundo, os números de renderização de texto são os mais interessantes — CVTG-2K e LongText-Bench estressam especificamente o modo de falha onde os modelos em espaço latente historicamente colapsam, e o design nativo de pixel do HiDream-O1 é exatamente o tipo de mudança que deveria ajudar nisso. A divisão 0,979/0,978 EN/ZH sugere que o ganho não é uma peculiaridade da tokenização do inglês.

O número do HPSv3 (10,37/12) coloca-o à frente do DALL-E 3 e do GPT Image 2 nas tabelas do relatório — uma comparação fechado vs. aberto que era impensável nessa faixa de tamanho há doze meses.

O Agente de Prompt Orientado por Raciocínio

Incluído no lançamento está um agente de prompt separado — não é parte do modelo de difusão, mas um wrapper que executa o Gemma-4-31B-it (ou qualquer API compatível com OpenAI) sobre a instrução do usuário antes da geração. O agente produz JSON com três campos: rastro de raciocínio, conhecimento implícito resolvido (ex.: “o usuário disse ‘um general da Dinastia Tang’ — isso significa um estilo específico de armadura e armas”) e um prompt refinado com especificações explícitas de layout/renderização de texto.

Esse é o mesmo padrão do reescritor de prompt GPT-4 do DALL-E 3 e da integração Gemini do Imagen 3, mas lançado como um componente separado e substituível que você pode executar localmente. Para prompts onde o raciocínio de layout importa — texto multi-região, relações espaciais específicas, especificidade cultural — executar o agente primeiro é o que fecha a lacuna em relação aos sistemas de fonte fechada que têm um LLM no pipeline por padrão.

Executando localmente

O repositório é direto:

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

Texto para imagem com Dev:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
    --output_image results/output.png

Edição com uma imagem de referência:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "remove the earphones" \
    --ref_images input.jpg \
    --output_image results/edited.png

A personalização orientada por sujeito funciona da mesma forma — passe múltiplas imagens de referência do mesmo sujeito:

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --prompt "A young boy stands on steps wearing light blue jeans..." \
    --ref_images ref1.jpg ref2.jpg ref3.jpg \
    --output_image results/personalized.png

Uma demonstração web (python app.py --model_path ... --port 7860) também está incluída.

A atenção flash é recomendada, mas não obrigatória — há uma mudança de uma linha documentada em models/pipeline.py caso não esteja disponível. A VRAM escala com a resolução de saída; a geração 2K×2K é a capacidade destaque do modelo, mas exige memória substancial.

Como difere do HiDream-I1

O HiDream-I1 original, lançado no início de 2025, era um DiT esparso-MoE de 17B operando em espaço latente — arquiteturalmente convencional, competindo em qualidade. O O1 é um reinício: a contagem de parâmetros cai para 8B, o VAE e o codificador de texto são removidos, e a própria arquitetura é a contribuição. A convenção de nomenclatura também é uma referência clara ao rebranding de modelo de raciocínio da OpenAI — “O1” sinaliza o agente integrado de raciocínio de prompt, embora o modelo de difusão em si seja um amostrador padrão de passe único.

Se você estiver escolhendo entre eles hoje: o I1 Dev é mais antigo, bem suportado nas plataformas de inferência e comprovado em produção. O O1 Dev é mais recente, menor, pontua mais alto em todos os benchmarks que a equipe reportou e renderiza texto de forma muito mais confiável — mas a arquitetura nativa de pixel é suficientemente nova para que as ferramentas de terceiros (nós ComfyUI, quantizações, scripts de treinamento LoRA) levem tempo para se atualizar.

Onde se encaixa

O HiDream-O1-Image-Dev é o lançamento de modelo de imagem open-weight mais interessante arquiteturalmente de 2026 até agora. A equipe fez uma aposta contrária — eliminar o espaço latente, eliminar os codificadores externos, fazer tudo em um único transformador — e os benchmarks validam a aposta, especialmente nas categorias de longa cauda (renderização de texto, composição complexa, multilíngue) onde os modelos latentes historicamente tiveram dificuldades.

A variante Dev especificamente é a que a maioria das pessoas realmente executará: 28 passos, sem CFG, licença MIT, multi-tarefa em checkpoint único. Se você tem esperado por um modelo open-source que corresponda ao GPT Image 2 ou DALL-E 3 em qualidade de texto em imagem sem o preço de API fechada, este é o momento.

O repositório está em github.com/HiDream-ai/HiDream-O1-Image, os pesos Dev estão em huggingface.co/HiDream-ai/HiDream-O1-Image-Dev, e um Space hospedado está disponível para experimentar sem a instalação local.

O Transformador Unificado em Nível de Pixel

O que o HiDream-O1-Image-Dev realmente faz

Benchmarks: onde a afirmação de 8B realmente se sustenta

O Agente de Prompt Orientado por Raciocínio

Executando localmente

Como difere do HiDream-I1

Onde se encaixa

Artigos relacionados

Claude Fable 5 Chegou: 80,3% no SWE-Bench Pro, Preço 2× do Opus 4.8, Gratuito até 22 de junho

Reve 2.0: O Modelo de Imagem 4K com Foco em Layout que Desafia o GPT Image 2 e o Nano Banana

GPT Image 2 vs FLUX 2 vs Imagen 4: Qual API de Imagens os Desenvolvedores Devem Usar em 2026?

Claude Sonnet 4.8: O que o Vazamento Realmente Diz e Por que o Padrão Não Se Encaixa

Seedance 2.1 e Seedance 2.0 Mini estão chegando: melhoria de qualidade e novo nível de preço mais baixo

GPT-5.6 Apareceu nos Logs do Codex da OpenAI — Veja o Que Isso Realmente Significa