HiDream-O1-Image-Dev：击败56B FLUX.2的8B像素原生模型

2026年5月8日，HiDream-ai以MIT许可证开源了HiDream-O1-Image——而其架构选择本身就是最大的新闻。近期几乎所有文生图模型都是潜空间扩散变换器（DiT在VAE压缩的token上运行，文本通过冻结的T5或CLIP路由），而HiDream-O1彻底抛弃了潜空间。它让扩散变换器直接在原始像素上运行，文本与任务条件共享同一token空间。

此次发布了两个检查点：完整版HiDream-O1-Image（50步，CFG 5.0）和蒸馏版HiDream-O1-Image-Dev（28步，CFG 0.0）。两者均有80亿参数。截至2026年5月5日，代号为Peanut的该模型在Artificial Analysis文生图竞技场排名第8，是榜单上排名最高的开源权重模型。

本文将深入解析该架构究竟有何不同、Dev蒸馏版相比完整版牺牲了什么，以及报告的基准测试结果与FLUX.2、Qwen-Image和SD 3.5 Large相比如何。

像素级统一变换器

现代开源图像模型几乎普遍采用同一套方案：

VAE将1024×1024 RGB图像压缩为约64×64的潜空间token。
文本编码器（T5-XXL、CLIP、Gemma）将提示词嵌入独立的向量空间。
DiT对潜空间token进行去噪，通过交叉注意力关注文本嵌入。

这种方案效率很高——扩散过程在1/64空间分辨率下进行——但它堆叠了三个独立训练的组件，各自有各自的失效模式。潜空间VAE会丢失细节，并在压缩边界处出现颜色渗漏。为检索而训练的文本编码器不一定能编码生成器所需的空间推理。两个异质嵌入空间之间的交叉注意力，正是文本渲染和小物体精度经常崩溃的地方。

HiDream-O1打破了这一堆叠架构。像素级统一变换器（UiT）将像素块、文本token和任务条件token视为同一序列的成员。没有VAE——模型直接操作原始RGB像素块；没有独立的文本编码器——文本token直接流入同一个变换器。扩散直接在像素空间中进行。

代价显而易见（每个token需要更多计算量，因为无法降采样到64×），团队的解决方案是稀疏化与调度策略——发布的技术报告描述了一种带预定义时间步的flash调度器，使Dev变体能以0引导尺度在28步内收敛。如果架构奏效，其好处在于所有模态共享同一种表示，这正是让同一个模型无需切换头部就能完成文生图、指令驱动编辑、多参考个性化和故事板生成的关键所在。

HiDream-O1-Image-Dev实际做了什么

Dev检查点经过引导蒸馏——它被训练为在单次前向传播中产生CFG条件输出，因此将guidance_scale=0.0即可跳过分类器自由引导通常所需的双倍计算量。仅此一项就能将任意步数下的实际耗时减半。

步数从完整模型的50步降至28步。结合CFG的节省，Dev明显更快——团队自己的定位是”质量与计算需求之间的平衡取舍”，这与一年前I1 Dev变体的定位一致。

同一检查点支持的能力：

文生图，原生分辨率最高达2048×2048（流水线中无放大器）
基于指令的编辑（--ref_images input.jpg --prompt "remove the earphones"）
主体驱动的个性化——多参考图像身份保留，输入同一主体的2张以上参考图像，将其置于新场景中
长文本渲染——多语言支持，在英文和中文LongText-Bench上报告的得分近乎持平
故事板生成——具有一致角色/场景的连续帧

四项任务共享同一权重。文生图与编辑之间无需切换LoRA或加载适配器——只需传入--ref_images即可切换模式。

基准测试：80亿参数的主张在哪里站得住脚

技术报告与显而易见的开源同类（FLUX.2、Qwen-Image、SD 3.5 Large）以及人类偏好基准上最强的闭源模型进行了比较。报告了五个测试套件：

基准测试	测量内容	HiDream-O1（8B）	FLUX.2 Dev（56B）	Qwen-Image（27B）	SD 3.5 Large（13.6B）
GenEval	组合准确性（物体、数量、颜色、位置）	0.90	0.87	0.87	0.71
DPG-Bench	密集提示词对齐	89.83	87.57	88.32	84.08
HPSv3	人类偏好（12个类别）	10.37	9.28	9.94	—
CVTG-2K	复杂视觉文本（2–5个区域）	0.9128	0.8926	0.8288	0.6548
LongText-Bench	多语言长文本渲染	0.979英文 / 0.978中文	—	—	—

有两点值得关注。第一，HiDream-O1在比FLUX.2 Dev小7倍、比Qwen-Image小3.4倍的情况下，赢得了所有报告的基准测试。一旦架构和数据组成出现分化，参数量就不再是质量的简单代理。第二，文本渲染数字最为有趣——CVTG-2K和LongText-Bench专门针对潜空间模型历来崩溃的失效模式施压，而HiDream-O1的像素原生设计正是能在此处有所改观的那类变革。0.979/0.978的英中分数差异表明，这种提升并非英文tokenization的偶然产物。

HPSv3得分（10.37/12）在报告的表格中超过了DALL-E 3和GPT Image 2——这种闭源与开源的比较，在这一参数规模下，一年前还是不可想象的。

推理驱动的提示词智能体

随本次发布一同打包的还有一个独立的提示词智能体——它不是扩散模型的一部分，而是一个包装器，在生成前对用户指令运行Gemma-4-31B-it（或任何兼容OpenAI接口的API）。该智能体输出包含三个字段的JSON：推理链路、已解析的隐式知识（例如”用户说’一位唐朝将领’——这意味着特定的铠甲风格和武器”），以及带有明确布局/文本渲染规范的精炼提示词。

这与DALL-E 3的GPT-4提示词改写器和Imagen 3的Gemini集成采用相同模式，但作为独立的、可替换的组件发布，可在本地运行。对于布局推理很重要的提示词——多区域文本、特定空间关系、文化特定性——先运行智能体，正是缩小与那些默认在流水线中集成LLM的闭源系统差距的关键。

本地运行

代码库操作简单：

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

使用Dev版文生图：

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "A dog holds a sign that says 'HiDream-O1-Image release.'" \
    --output_image results/output.png

使用参考图像进行编辑：

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --model_type dev \
    --prompt "remove the earphones" \
    --ref_images input.jpg \
    --output_image results/edited.png

主体驱动的个性化同理——传入同一主体的多张参考图像：

python inference.py \
    --model_path /path/to/HiDream-O1-Image-Dev \
    --prompt "A young boy stands on steps wearing light blue jeans..." \
    --ref_images ref1.jpg ref2.jpg ref3.jpg \
    --output_image results/personalized.png

还附带了一个网页演示（python app.py --model_path ... --port 7860）。

推荐使用flash attention，但非必需——如果不可用，models/pipeline.py中有一处有据可查的单行修改。显存随输出分辨率扩展；2K×2K生成是模型的旗舰能力，但需要相当大的显存。

与HiDream-I1的区别

最初的HiDream-I1于2025年初发布，是一个在潜空间运行的170亿稀疏MoE DiT——架构上属于传统路线，以质量取胜。O1是一次重置：参数量降至80亿，VAE和文本编码器被移除，架构本身才是贡献所在。命名惯例也明显借鉴了OpenAI的推理模型品牌——“O1”暗示了集成的提示词推理智能体，尽管扩散模型本身是标准的一次性采样器。

如果今天要在二者之间做选择：I1 Dev更成熟，在各推理平台上支持良好，已在生产环境中经过验证。O1 Dev更新、更小、在团队报告的所有基准上得分更高，文本渲染也更可靠——但像素原生架构足够新颖，第三方工具（ComfyUI节点、量化方案、LoRA训练脚本）需要时间跟上。

它的定位

HiDream-O1-Image-Dev是2026年迄今最具架构创新意义的开源权重图像模型发布。团队做出了一个反共识的赌注——放弃潜空间、放弃外部编码器、在一个变换器中完成所有事情——而基准测试支持了这个赌注，尤其在长尾类别（文本渲染、复杂组合、多语言）上，这恰恰是潜空间模型历来挣扎的领域。

Dev变体具体来说是大多数人实际会运行的那个：28步、无CFG、MIT许可证、单检查点多任务。如果你一直在等待一个能在图像文字质量上媲美GPT Image 2或DALL-E 3、又无需支付闭源API费用的开源模型，这就是你要找的。

代码库在github.com/HiDream-ai/HiDream-O1-Image，Dev权重在huggingface.co/HiDream-ai/HiDream-O1-Image-Dev，还有一个托管的Space可供无需本地安装直接体验。

像素级统一变换器

HiDream-O1-Image-Dev实际做了什么

基准测试：80亿参数的主张在哪里站得住脚

推理驱动的提示词智能体

本地运行

与HiDream-I1的区别

它的定位

相关文章

Claude Fable 5 正式发布：SWE-Bench Pro 得分 80.3%，定价为 Opus 4.8 的 2 倍，6 月 22 日前免费使用

Reve 2.0：以布局为先的4K图像模型，挑战GPT Image 2与Nano Banana

GPT Image 2 vs FLUX 2 vs Imagen 4：2026年开发者应选择哪个图像API？

Claude Sonnet 4.8：泄露内容究竟说了什么，以及为何这一模式不符合规律

Seedance 2.1 与 Seedance 2.0 Mini 即将到来：画质提升，价格更低

GPT-5.6出现在OpenAI的Codex日志中——这究竟意味着什么