HiDream-O1-Image-Dev:击败56B FLUX.2的8B像素原生模型
HiDream-O1-Image-Dev是一款80亿参数的蒸馏图像模型,去除了VAE和外部文本编码器,原生生成2K分辨率图像,在GenEval、DPG和HPSv3评测中超越了7倍体量的模型。
2026年5月8日,HiDream-ai以MIT许可证开源了HiDream-O1-Image——而其架构选择本身就是最大的新闻。近期几乎所有文生图模型都是潜空间扩散变换器(DiT在VAE压缩的token上运行,文本通过冻结的T5或CLIP路由),而HiDream-O1彻底抛弃了潜空间。它让扩散变换器直接在原始像素上运行,文本与任务条件共享同一token空间。
此次发布了两个检查点:完整版HiDream-O1-Image(50步,CFG 5.0)和蒸馏版HiDream-O1-Image-Dev(28步,CFG 0.0)。两者均有80亿参数。截至2026年5月5日,代号为Peanut的该模型在Artificial Analysis文生图竞技场排名第8,是榜单上排名最高的开源权重模型。
本文将深入解析该架构究竟有何不同、Dev蒸馏版相比完整版牺牲了什么,以及报告的基准测试结果与FLUX.2、Qwen-Image和SD 3.5 Large相比如何。
像素级统一变换器
现代开源图像模型几乎普遍采用同一套方案:
- VAE将1024×1024 RGB图像压缩为约64×64的潜空间token。
- 文本编码器(T5-XXL、CLIP、Gemma)将提示词嵌入独立的向量空间。
- DiT对潜空间token进行去噪,通过交叉注意力关注文本嵌入。
这种方案效率很高——扩散过程在1/64空间分辨率下进行——但它堆叠了三个独立训练的组件,各自有各自的失效模式。潜空间VAE会丢失细节,并在压缩边界处出现颜色渗漏。为检索而训练的文本编码器不一定能编码生成器所需的空间推理。两个异质嵌入空间之间的交叉注意力,正是文本渲染和小物体精度经常崩溃的地方。
HiDream-O1打破了这一堆叠架构。像素级统一变换器(UiT)将像素块、文本token和任务条件token视为同一序列的成员。没有VAE——模型直接操作原始RGB像素块;没有独立的文本编码器——文本token直接流入同一个变换器。扩散直接在像素空间中进行。
代价显而易见(每个token需要更多计算量,因为无法降采样到64×),团队的解决方案是稀疏化与调度策略——发布的技术报告描述了一种带预定义时间步的flash调度器,使Dev变体能以0引导尺度在28步内收敛。如果架构奏效,其好处在于所有模态共享同一种表示,这正是让同一个模型无需切换头部就能完成文生图、指令驱动编辑、多参考个性化和故事板生成的关键所在。
HiDream-O1-Image-Dev实际做了什么
Dev检查点经过引导蒸馏——它被训练为在单次前向传播中产生CFG条件输出,因此将guidance_scale=0.0即可跳过分类器自由引导通常所需的双倍计算量。仅此一项就能将任意步数下的实际耗时减半。
步数从完整模型的50步降至28步。结合CFG的节省,Dev明显更快——团队自己的定位是”质量与计算需求之间的平衡取舍”,这与一年前I1 Dev变体的定位一致。
同一检查点支持的能力:
- 文生图,原生分辨率最高达2048×2048(流水线中无放大器)
- 基于指令的编辑(
--ref_images input.jpg --prompt "remove the earphones") - 主体驱动的个性化——多参考图像身份保留,输入同一主体的2张以上参考图像,将其置于新场景中
- 长文本渲染——多语言支持,在英文和中文LongText-Bench上报告的得分近乎持平
- 故事板生成——具有一致角色/场景的连续帧
四项任务共享同一权重。文生图与编辑之间无需切换LoRA或加载适配器——只需传入--ref_images即可切换模式。
基准测试:80亿参数的主张在哪里站得住脚
技术报告与显而易见的开源同类(FLUX.2、Qwen-Image、SD 3.5 Large)以及人类偏好基准上最强的闭源模型进行了比较。报告了五个测试套件:
| 基准测试 | 测量内容 | HiDream-O1(8B) | FLUX.2 Dev(56B) | Qwen-Image(27B) | SD 3.5 Large(13.6B) |
|---|---|---|---|---|---|
| GenEval | 组合准确性(物体、数量、颜色、位置) | 0.90 | 0.87 | 0.87 | 0.71 |
| DPG-Bench | 密集提示词对齐 | 89.83 | 87.57 | 88.32 | 84.08 |
| HPSv3 | 人类偏好(12个类别) | 10.37 | 9.28 | 9.94 | — |
| CVTG-2K | 复杂视觉文本(2–5个区域) | 0.9128 | 0.8926 | 0.8288 | 0.6548 |
| LongText-Bench | 多语言长文本渲染 | 0.979英文 / 0.978中文 | — | — | — |
有两点值得关注。第一,HiDream-O1在比FLUX.2 Dev小7倍、比Qwen-Image小3.4倍的情况下,赢得了所有报告的基准测试。一旦架构和数据组成出现分化,参数量就不再是质量的简单代理。第二,文本渲染数字最为有趣——CVTG-2K和LongText-Bench专门针对潜空间模型历来崩溃的失效模式施压,而HiDream-O1的像素原生设计正是能在此处有所改观的那类变革。0.979/0.978的英中分数差异表明,这种提升并非英文tokenization的偶然产物。
HPSv3得分(10.37/12)在报告的表格中超过了DALL-E 3和GPT Image 2——这种闭源与开源的比较,在这一参数规模下,一年前还是不可想象的。
推理驱动的提示词智能体
随本次发布一同打包的还有一个独立的提示词智能体——它不是扩散模型的一部分,而是一个包装器,在生成前对用户指令运行Gemma-4-31B-it(或任何兼容OpenAI接口的API)。该智能体输出包含三个字段的JSON:推理链路、已解析的隐式知识(例如”用户说’一位唐朝将领’——这意味着特定的铠甲风格和武器”),以及带有明确布局/文本渲染规范的精炼提示词。
这与DALL-E 3的GPT-4提示词改写器和Imagen 3的Gemini集成采用相同模式,但作为独立的、可替换的组件发布,可在本地运行。对于布局推理很重要的提示词——多区域文本、特定空间关系、文化特定性——先运行智能体,正是缩小与那些默认在流水线中集成LLM的闭源系统差距的关键。
本地运行
代码库操作简单:
git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt
使用Dev版文生图:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
--output_image results/output.png
使用参考图像进行编辑:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--model_type dev \
--prompt "remove the earphones" \
--ref_images input.jpg \
--output_image results/edited.png
主体驱动的个性化同理——传入同一主体的多张参考图像:
python inference.py \
--model_path /path/to/HiDream-O1-Image-Dev \
--prompt "A young boy stands on steps wearing light blue jeans..." \
--ref_images ref1.jpg ref2.jpg ref3.jpg \
--output_image results/personalized.png
还附带了一个网页演示(python app.py --model_path ... --port 7860)。
推荐使用flash attention,但非必需——如果不可用,models/pipeline.py中有一处有据可查的单行修改。显存随输出分辨率扩展;2K×2K生成是模型的旗舰能力,但需要相当大的显存。
与HiDream-I1的区别
最初的HiDream-I1于2025年初发布,是一个在潜空间运行的170亿稀疏MoE DiT——架构上属于传统路线,以质量取胜。O1是一次重置:参数量降至80亿,VAE和文本编码器被移除,架构本身才是贡献所在。命名惯例也明显借鉴了OpenAI的推理模型品牌——“O1”暗示了集成的提示词推理智能体,尽管扩散模型本身是标准的一次性采样器。
如果今天要在二者之间做选择:I1 Dev更成熟,在各推理平台上支持良好,已在生产环境中经过验证。O1 Dev更新、更小、在团队报告的所有基准上得分更高,文本渲染也更可靠——但像素原生架构足够新颖,第三方工具(ComfyUI节点、量化方案、LoRA训练脚本)需要时间跟上。
它的定位
HiDream-O1-Image-Dev是2026年迄今最具架构创新意义的开源权重图像模型发布。团队做出了一个反共识的赌注——放弃潜空间、放弃外部编码器、在一个变换器中完成所有事情——而基准测试支持了这个赌注,尤其在长尾类别(文本渲染、复杂组合、多语言)上,这恰恰是潜空间模型历来挣扎的领域。
Dev变体具体来说是大多数人实际会运行的那个:28步、无CFG、MIT许可证、单检查点多任务。如果你一直在等待一个能在图像文字质量上媲美GPT Image 2或DALL-E 3、又无需支付闭源API费用的开源模型,这就是你要找的。
代码库在github.com/HiDream-ai/HiDream-O1-Image,Dev权重在huggingface.co/HiDream-ai/HiDream-O1-Image-Dev,还有一个托管的Space可供无需本地安装直接体验。
