← 博客

GPT Image 2 会是什么?基于 OpenAI 发展轨迹的预测

GPT Image 2 尚未发布,但 OpenAI 从 DALL-E 3 到 GPT Image 1.5 的发展轨迹揭示了图像生成的走向。以下是对未来的预测,以及你现在可以使用的工具。

2 min read
GPT Image 2 会是什么?基于 OpenAI 发展轨迹的预测

GPT Image 2 现已在 WaveSpeedAI 上线。 生成图像 -> | 编辑图像 ->

OpenAI 的 GPT Image 2 正式登场。以下我们将回顾从 DALL-E 3 到 GPT Image 1,再到 GPT Image 1.5 的发展轨迹,分析每一代的改进之处,以及 GPT Image 2 带来了什么。


GPT Image 1.5 的现状

GPT Image 1.5 于 2025 年 12 月发布,目前在 LMArena 图像生成排行榜上位居榜首。其核心突破在于架构层面:图像生成不再依赖独立的扩散模型,而是原生集成在 GPT-5 神经网络内部完成。这带来了以下优势:

  • 生成速度是 GPT Image 1 的 4 倍
  • 文字渲染准确率达 90-95% —— 标牌、信息图、UI 原型图
  • 精准编辑 —— 修改单一元素而不影响其他内容
  • 成本比前代降低 20%
  • 支持 32,000 字符的提示词,适合复杂指令
质量1024x10241024x1536 / 1536x1024
$0.009$0.013
$0.034$0.051
$0.133$0.200

实力强劲,但也存在明显短板——而这些短板正是 GPT Image 2 需要解决的方向。


GPT Image 1.5 的不足之处

分辨率上限

最高输出分辨率为 1536x1024。Midjourney V8 已原生支持 2K 输出。对于印刷、大幅面展示或任何需要 4K 输出的专业工作流而言,只能借助外部工具进行放大。GPT Image 2 几乎必然会将此提升至至少 2048x2048,乃至 4096x4096。

非拉丁文字渲染

对于英语和拉丁字母语言,文字渲染表现优秀。但中文、阿拉伯文、希伯来文及其他书写系统仍不稳定。鉴于 OpenAI 积极拓展全球市场,GPT Image 2 需要弥补这一差距。

跨代一致性

GPT Image 1.5 能在对同一图像进行连续编辑时保持身份一致性。但在没有参考图像的情况下,从零开始生成同一角色或场景的多张图像,仍会出现偏差。真正的多图角色一致性,将为漫画创作、故事板制作以及大规模品牌素材生成解锁新的可能。

视频集成

图像与视频生成目前仍是独立的工作流。随着竞争对手推出统一的多模态模型(如 Sora 同时支持两者),下一代 GPT Image 模型可能原生支持短动画序列或图像转视频功能。

精细空间控制

目前没有类似 ControlNet 的姿态、深度或边缘条件控制功能。用户只能用文字描述需求,由模型决定构图。专业用户希望获得更确定性的布局控制——边界框、区域遮罩、空间提示词。


GPT Image 2 可能带来的改进

基于 OpenAI 的研究论文、竞争压力以及上述不足,以下是最可能实现的改进:

原生 4K 分辨率

GPT Image 1.5 从 1024 到 1536 的跨越较为保守。面对 Midjourney 的 2K 和 Flux 更高的分辨率,GPT Image 2 很可能原生支持至少 2048x2048,并提供 4K 高级档位。这将从专业工作流中消除额外的放大步骤。

全语言文字渲染

预计将实现对中日韩、阿拉伯语、天城文及其他书写系统的准确文字渲染。OpenAI 在国际化领域大量招募人才,图像内嵌文字是太强的差异化竞争力,不会就此停步。

角色与风格一致性

能够一次定义角色、物体或风格,并生成多张保持一致的图像。这可以通过持久嵌入、参考图样式表或学习型身份令牌来实现。营销、游戏和出版行业对此有巨大需求。

空间与构图控制

某种形式的区域提示——指定元素的位置,而不仅仅是内容。可以简单到边界框输入,也可以复杂到分层构图。这将填补”提示词碰运气”与确定性设计工具之间的鸿沟。

更深度的编辑能力

GPT Image 1.5 的编辑功能已经相当出色。GPT Image 2 可能将其扩展至视频帧编辑、跨图像集批量编辑,以及示例编辑(展示前后对比,将相同变换应用到新图像上)。

速度与成本优化

每一代都更快、更便宜。GPT Image 2 很可能将高质量生成压缩至 3 秒以内,并延续成本下降趋势,可能推出全新的”Turbo”档位。


现在可以使用什么

GPT Image 2 尚未发布。但 GPT Image 1.5 今天就可以在 WaveSpeedAI 上使用——它已经是文字渲染和图像编辑工作流中最强大的模型。

文本生成图像

import wavespeed

output = wavespeed.run(
    "openai/gpt-image-1.5/text-to-image",
    {
        "prompt": "Minimalist product photo of a ceramic coffee mug on a marble countertop, warm morning light, text on mug reads 'GOOD MORNING' in clean sans-serif font",
        "size": "1536x1024",
        "quality": "high",
    },
)

print(output["outputs"][0])

试用文本生成图像 ->

图像编辑

import wavespeed

output = wavespeed.run(
    "openai/gpt-image-1.5/edit",
    {
        "prompt": "Change the background to a sunset beach, keep the subject and lighting consistent",
        "image": "https://example.com/photo.jpg",
        "quality": "high",
    },
)

print(output["outputs"][0])

试用图像编辑 ->


时间线预测

OpenAI 于 2025 年 3 月发布 GPT Image 1,2025 年 12 月发布 GPT Image 1.5,间隔 9 个月。若保持相同节奏,GPT Image 2 可能在 2026 年中至 2026 年底 到来。但来自 Midjourney V8、Google Imagen 4 和 Flux 2 的竞争压力,可能会加速这一进程。

GPT Image 2 现已通过相同的 API 在 WaveSpeedAI 上提供。无需迁移,无需更改代码——只需替换模型名称即可。


立即在 WaveSpeedAI 上体验 GPT Image 2:

历史版本同样可用: