← 部落格

GPT Image 2將會是什麼?基於OpenAI發展軌跡的預測

GPT Image 2尚未宣布,但OpenAI從DALL-E 3到GPT Image 1.5的發展軌跡揭示了圖像生成的未來方向。以下是值得期待的內容,以及您今天可以使用的工具。

2 min read
GPT Image 2將會是什麼?基於OpenAI發展軌跡的預測

GPT Image 2 現已在 WaveSpeedAI 上線。 生成圖片 -> | 編輯圖片 ->

OpenAI 的 GPT Image 2 正式登場。以下我們將回顧從 DALL-E 3 到 GPT Image 1、再到 GPT Image 1.5 的發展歷程,每一代的改進重點,以及 GPT Image 2 帶來了什麼。


GPT Image 1.5 的現況

GPT Image 1.5 於 2025 年 12 月推出,目前在 LMArena 的圖像生成基準測試中位居榜首。其核心突破在於架構設計:圖像生成不再依賴獨立的擴散模型,而是直接在 GPT-5 神經網路內部原生完成。這帶來了以下優勢:

  • 生成速度比 GPT Image 1 快 4 倍
  • 文字渲染準確率達 90-95% — 招牌、資訊圖表、UI 設計稿
  • 精準編輯 — 修改單一元素而不影響其他部分
  • 成本比前代降低 20%
  • 支援 32,000 字元的提示詞,適合複雜指令
品質1024x10241024x1536 / 1536x1024
$0.009$0.013
$0.034$0.051
$0.133$0.200

實力強勁,但仍有明顯不足——而這些不足正是 GPT Image 2 需要解決的問題。


GPT Image 1.5 的不足之處

解析度上限

最高輸出為 1536x1024。Midjourney V8 已原生支援 2K 輸出。對於印刷、大型展示螢幕或任何需要 4K 輸出的專業工作流程,你必須依賴外部放大工具。GPT Image 2 幾乎可以確定會將上限提升至至少 2048x2048,甚至 4096x4096。

非拉丁文字渲染

對英文及拉丁字母語言的文字渲染表現優異,但中文、阿拉伯文、希伯來文及其他文字系統仍不穩定。鑒於 OpenAI 積極拓展全球市場,GPT Image 2 必須補上這一短板。

跨次生成的一致性

GPT Image 1.5 能在同一張圖的連續編輯中維持身份一致性。但若要從零開始生成同一角色或場景的多張圖片——而不提供參考圖——仍然會出現偏差。真正的多圖角色一致性,將為漫畫分鏡、故事板和大規模品牌素材生成打開大門。

影片整合

圖像生成與影片生成目前仍是分開的工作流程。隨著競爭對手推出統一的多模態模型(例如 Sora 同時支援兩者),下一代 GPT Image 模型或許將原生支援短動畫序列或圖像轉影片功能。

精細的空間控制

目前沒有類似 ControlNet 的姿態、深度或邊緣條件控制功能。你只能用文字描述需求,由模型決定構圖。專業用戶希望獲得更具確定性的版面控制——邊界框、區域遮罩、空間提示。


GPT Image 2 可能帶來的改進

根據 OpenAI 的研究論文、競爭壓力及上述不足,以下是最可能出現的改進方向:

原生 4K 解析度

GPT Image 1.5 從 1024 到 1536 的提升相當保守。面對 Midjourney 的 2K 和 Flux 更高的規格,GPT Image 2 很可能原生支援至少 2048x2048,並提供 4K 的進階方案。這將從專業工作流程中省去放大這一步驟。

全語言文字渲染

預期將實現 CJK(中日韓)、阿拉伯文、天城文及其他文字的精準渲染。OpenAI 在國際化方面大量招募人才,而圖像內文字渲染是一項太重要的差異化優勢,不能留有缺口。

角色與風格一致性

只需定義一次角色、物件或風格,即可生成多張保持一致的圖片。這可透過持久化嵌入向量、參考表系統或學習式身份標記來實現。行銷、遊戲和出版領域對此需求極為龐大。

空間與構圖控制

引入某種基於區域的提示方式——指定元素的位置,而不僅僅是元素的內容。可以是簡單的邊界框輸入,也可以是複雜的分層構圖。這將填補「提示後碰運氣」與確定性設計工具之間的鴻溝。

更強大的編輯功能

GPT Image 1.5 的編輯能力已十分出色。GPT Image 2 可能將此擴展至影片幀編輯、跨圖集的批次編輯,以及以範例引導的編輯(提供前後對比範例,將相同變換應用於新圖像)。

速度與成本優化

每一代都更快、更便宜。GPT Image 2 很可能將高品質生成時間壓縮至 3 秒以內,並延續降價趨勢,或許還會推出全新的「Turbo」方案。


現在就能使用的功能

GPT Image 2 尚未發布,但 GPT Image 1.5 今天就可以在 WaveSpeedAI 上使用——而且它已經是文字渲染和圖像編輯工作流程中最強大的模型。

文字生圖

import wavespeed

output = wavespeed.run(
    "openai/gpt-image-1.5/text-to-image",
    {
        "prompt": "Minimalist product photo of a ceramic coffee mug on a marble countertop, warm morning light, text on mug reads 'GOOD MORNING' in clean sans-serif font",
        "size": "1536x1024",
        "quality": "high",
    },
)

print(output["outputs"][0])

試用文字生圖 ->

圖像編輯

import wavespeed

output = wavespeed.run(
    "openai/gpt-image-1.5/edit",
    {
        "prompt": "Change the background to a sunset beach, keep the subject and lighting consistent",
        "image": "https://example.com/photo.jpg",
        "quality": "high",
    },
)

print(output["outputs"][0])

試用圖像編輯 ->


時程預測

OpenAI 於 2025 年 3 月發布 GPT Image 1,同年 12 月發布 GPT Image 1.5——間隔 9 個月。若維持相同節奏,GPT Image 2 可能在 2026 年中至 2026 年底之間推出。但來自 Midjourney V8、Google Imagen 4 和 Flux 2 的競爭壓力,可能加速這一時程。

GPT Image 2 現已透過相同 API 在 WaveSpeedAI 上提供。無需遷移,無需更改程式碼——只需替換模型名稱即可。


立即在 WaveSpeedAI 上試用 GPT Image 2:

舊版本同樣可用: