HiDream-O1-Image-Dev: 56B FLUX.2를 능가한 8B 픽셀 네이티브 모델
HiDream-O1-Image-Dev는 VAE와 외부 텍스트 인코더를 제거하고 2K 해상도를 네이티브로 생성하며, GenEval, DPG, HPSv3에서 자신보다 7배 큰 모델을 능가하는 8B 증류 이미지 모델입니다.
2026년 5월 8일, HiDream-ai는 HiDream-O1-Image를 MIT 라이선스로 오픈소스 공개했으며, 이 아키텍처 선택이 핵심 화제다. 최근 대부분의 텍스트-이미지 모델이 잠재 확산 트랜스포머(VAE 압축 토큰 위에서 동작하는 DiT, 텍스트는 동결된 T5 또는 CLIP을 통해 라우팅)를 채택하는 반면, HiDream-O1은 잠재 스택을 완전히 제거했다. 이 모델은 확산 트랜스포머를 원시 픽셀 위에서 실행하며, 텍스트와 태스크 조건이 동일한 토큰 공간을 공유한다.
두 가지 체크포인트가 공개되었다: 전체 모델 HiDream-O1-Image(50 스텝, CFG 5.0)와 증류 모델 HiDream-O1-Image-Dev(28 스텝, CFG 0.0). 둘 다 80억 파라미터다. 2026년 5월 5일 기준, Peanut이라는 코드명의 이 모델은 Artificial Analysis 텍스트-이미지 아레나 8위에 올라 있으며, 해당 순위표에서 가장 높은 순위의 오픈웨이트 모델이다.
이 글에서는 아키텍처의 실질적인 차이점, Dev 증류 모델이 전체 모델 대비 포기하는 것, 그리고 보고된 벤치마크가 FLUX.2, Qwen-Image, SD 3.5 Large와 어떻게 비교되는지를 살펴본다.
픽셀 레벨 통합 트랜스포머
현대의 오픈 이미지 모델은 거의 예외 없이 동일한 레시피를 공유한다:
- VAE가 1024×1024 RGB를 ~64×64 잠재 토큰으로 압축한다.
- 텍스트 인코더(T5-XXL, CLIP, Gemma)가 프롬프트를 별도의 벡터 공간에 임베딩한다.
- DiT가 텍스트 임베딩에 교차 어텐션을 수행하며 잠재 토큰을 노이즈 제거한다.
이 방식은 효율적이다 — 확산이 공간 해상도의 1/64 수준에서 이루어지기 때문이다 — 하지만 각자의 실패 모드를 가진 세 가지 독립적으로 학습된 컴포넌트를 쌓는 구조다. 잠재 VAE는 미세한 디테일을 잃고 압축 경계에서 색이 번진다. 검색을 위해 학습된 텍스트 인코더는 생성 모델이 필요로 하는 공간적 추론을 반드시 인코딩하지 않는다. 두 개의 이질적인 임베딩 공간 사이의 교차 어텐션은 텍스트 렌더링과 소규모 객체 정확도가 주로 무너지는 지점이다.
HiDream-O1은 이 스택을 붕괴시킨다. 픽셀 레벨 통합 트랜스포머(UiT)는 픽셀 패치, 텍스트 토큰, 태스크 조건 토큰을 하나의 공유 시퀀스의 구성원으로 취급한다. VAE가 없다 — 모델은 원시 RGB 패치 위에서 작동한다. 별도의 텍스트 인코더도 없다 — 텍스트 토큰이 동일한 트랜스포머로 유입된다. 확산은 픽셀 공간에서 직접 이루어진다.
비용은 명확하다(64× 다운샘플을 할 수 없으므로 토큰당 더 많은 연산)하며, 팀의 답은 희소성과 스케줄링이다 — 공개된 기술 보고서는 사전 정의된 타임스텝을 가진 플래시 스케줄러를 설명하는데, 이를 통해 Dev 변형이 가이던스 스케일 0으로 28 스텝에서 수렴할 수 있다. 아키텍처가 작동한다면 얻는 이점은 모든 모달리티가 하나의 표현에 존재한다는 것으로, 이는 동일한 모델이 헤드 교체 없이 텍스트-이미지, 지시 기반 편집, 다중 참조 개인화, 스토리보드 생성을 수행해야 할 때 정확히 필요한 것이다.
HiDream-O1-Image-Dev가 실제로 하는 것
Dev 체크포인트는 가이던스 증류 되었다 — CFG 조건부 출력을 단일 순전파로 생성하도록 학습되어, guidance_scale=0.0을 설정하고 분류기 없는 가이던스가 일반적으로 요구하는 두 배의 연산을 건너뛴다. 이것만으로도 어떤 스텝 수에서든 벽시계 시간이 대략 절반으로 줄어든다.
스텝 수는 전체 모델 대비 50 → 28로 감소한다. CFG 절약과 결합하면 Dev는 의미 있게 빠르다 — 팀 자체의 표현은 “품질과 연산 요구량 사이의 균형 잡힌 절충”으로, 1년 전 I1 Dev 변형의 포지셔닝과 일치한다.
동일한 체크포인트가 지원하는 기능:
- 업스케일러 없이 최대 2048×2048 네이티브 해상도의 텍스트-이미지 생성
- 지시 기반 편집 (
--ref_images input.jpg --prompt "이어폰을 제거해줘") - 주제 기반 개인화 — 다중 참조 동일성 보존, 동일 피사체의 참조 이미지 2장 이상을 받아 새로운 맥락에 배치
- 장문 텍스트 렌더링 — 다국어 지원, 영어와 중국어 LongText-Bench에서 거의 동등한 점수 보고
- 스토리보드 생성 — 일관된 캐릭터/배경을 가진 순차적 프레임
네 가지 태스크가 가중치를 공유한다. 텍스트-이미지와 편집 사이에 LoRA 교체나 어댑터 로딩이 없다 — 모드 전환은 --ref_images를 전달하기만 하면 된다.
벤치마크: 80억 파라미터 주장이 실제로 통하는 곳
기술 보고서는 명백한 오픈웨이트 경쟁자들(FLUX.2, Qwen-Image, SD 3.5 Large)과 인간 선호 벤치마크에서 가장 강력한 클로즈드 모델들과 비교한다. 다섯 가지 스위트가 보고된다:
| 벤치마크 | 측정 항목 | HiDream-O1 (8B) | FLUX.2 Dev (56B) | Qwen-Image (27B) | SD 3.5 Large (13.6B) |
|---|---|---|---|---|---|
| GenEval | 구성적 정확도 (객체, 수량, 색상, 위치) | 0.90 | 0.87 | 0.87 | 0.71 |
| DPG-Bench | 고밀도 프롬프트 정렬 | 89.83 | 87.57 | 88.32 | 84.08 |
| HPSv3 | 인간 선호도 (12개 카테고리) | 10.37 | 9.28 | 9.94 | — |
| CVTG-2K | 복잡한 시각 텍스트 (2–5 영역) | 0.9128 | 0.8926 | 0.8288 | 0.6548 |
| LongText-Bench | 다국어 장문 텍스트 렌더링 | 0.979 EN / 0.978 ZH | — | — | — |
두 가지가 두드러진다. 첫째, HiDream-O1은 FLUX.2 Dev보다 7배 작고 Qwen-Image보다 3.4배 작으면서도 보고된 모든 벤치마크에서 승리한다. 아키텍처와 데이터 구성이 달라지면 파라미터 수는 더 이상 품질의 명확한 대리 지표가 되지 않는다. 둘째, 텍스트 렌더링 수치가 가장 흥미롭다 — CVTG-2K와 LongText-Bench는 특히 잠재 공간 모델이 역사적으로 무너지는 실패 모드를 강조하며, HiDream-O1의 픽셀 네이티브 설계는 정확히 그 부분에 도움이 되어야 하는 종류의 변화다. 0.979 / 0.978의 EN/ZH 분할은 이득이 영어 토크나이제이션의 특이한 점이 아님을 시사한다.
HPSv3 수치(10.37/12)는 보고서의 표에서 DALL-E 3과 GPT Image 2를 앞선다 — 12개월 전만 해도 이 규모 등급에서는 상상할 수 없었던 클로즈드-대-오픈 비교다.
추론 기반 프롬프트 에이전트
릴리스와 함께 별도의 프롬프트 에이전트가 포함되었다 — 확산 모델의 일부가 아니라, 생성 전에 사용자의 지시를 Gemma-4-31B-it(또는 OpenAI 호환 API)로 실행하는 래퍼다. 에이전트는 세 가지 필드를 가진 JSON을 출력한다: 추론 추적, 해결된 암묵적 지식(예: “사용자가 ‘당나라 장군’이라고 했다 — 이는 특정 갑옷 스타일과 무기를 의미한다”), 명시적 레이아웃/텍스트 렌더링 사양이 포함된 정제된 프롬프트.
이는 DALL-E 3의 GPT-4 프롬프트 리라이터와 Imagen 3의 Gemini 통합과 동일한 패턴이지만, 로컬에서 실행할 수 있는 별도의 교체 가능한 컴포넌트로 제공된다. 레이아웃 추론이 중요한 프롬프트 — 다중 영역 텍스트, 특정 공간적 관계, 문화적 특수성 — 에서 에이전트를 먼저 실행하는 것이 기본적으로 파이프라인에 LLM을 가진 클로즈드 소스 시스템과의 격차를 좁히는 방법이다.
로컬에서 실행하기
레포지토리는 간단하다:
git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt
Dev로 텍스트-이미지 생성:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
--output_image results/output.png
참조 이미지로 편집:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "remove the earphones" \
--ref_images input.jpg \
--output_image results/edited.png
주제 기반 개인화도 동일한 방식으로 작동한다 — 동일 피사체의 참조 이미지 여러 장을 전달한다:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--prompt "A young boy stands on steps wearing light blue jeans..." \
--ref_images ref1.jpg ref2.jpg ref3.jpg \
--output_image results/personalized.png
웹 데모(python app.py --model_path ... --port 7860)도 포함되어 있다.
플래시 어텐션은 권장되지만 필수는 아니다 — 사용할 수 없는 경우 models/pipeline.py에서 한 줄 변경으로 처리할 수 있는 방법이 문서화되어 있다. VRAM은 출력 해상도에 따라 확장된다. 2K×2K 생성이 모델의 핵심 기능이지만 상당한 메모리를 요구한다.
HiDream-I1과의 차이점
2025년 초에 출시된 원래의 HiDream-I1은 잠재 공간에서 작동하는 170억 희소 MoE DiT였다 — 아키텍처적으로 관습적이고, 품질로 경쟁하는 방식이었다. O1은 리셋이다: 파라미터 수가 80억으로 줄어들고, VAE와 텍스트 인코더가 제거되며, 아키텍처 자체가 기여점이 된다. 명명 규칙도 OpenAI의 추론 모델 리브랜딩에 대한 명확한 오마주다 — “O1”은 확산 모델 자체가 표준 원샷 샘플러임에도 불구하고 통합된 프롬프트 추론 에이전트를 신호한다.
오늘 둘 중 하나를 선택한다면: I1 Dev는 더 오래되었고 추론 플랫폼 전반에서 잘 지원되며 프로덕션에서 검증되었다. O1 Dev는 더 새롭고 더 작으며 팀이 보고한 모든 벤치마크에서 더 높은 점수를 기록하고 텍스트를 훨씬 더 안정적으로 렌더링한다 — 하지만 픽셀 네이티브 아키텍처가 충분히 새롭기 때문에 서드파티 도구(ComfyUI 노드, 양자화, LoRA 학습 스크립트)가 따라잡는 데 시간이 걸릴 것이다.
자리매김
HiDream-O1-Image-Dev는 2026년 현재까지 가장 아키텍처적으로 흥미로운 오픈웨이트 이미지 모델 릴리스다. 팀은 역발상적 도박을 했다 — 잠재 공간을 버리고, 외부 인코더를 버리고, 모든 것을 하나의 트랜스포머에서 처리한다 — 그리고 벤치마크가 그 도박을 뒷받침한다. 특히 잠재 모델이 역사적으로 고전해온 롱테일 카테고리(텍스트 렌더링, 복잡한 구성, 다국어)에서 두드러진다.
Dev 변형이 특히 대부분의 사람들이 실제로 실행할 것이다: 28 스텝, CFG 없음, MIT 라이선스, 단일 체크포인트 멀티태스크. 클로즈드 API 가격 없이 GPT Image 2나 DALL-E 3에 맞먹는 이미지 내 텍스트 품질을 가진 오픈 모델을 기다려왔다면, 이것이 바로 그것이다.
레포지토리는 github.com/HiDream-ai/HiDream-O1-Image에 있고, Dev 가중치는 huggingface.co/HiDream-ai/HiDream-O1-Image-Dev에서 제공되며, 로컬 설치 없이 시도해볼 수 있는 호스팅 Space도 운영 중이다.
