← 部落格

GPT Image 2 API 生成與編輯開發者指南

面向開發者的 GPT Image 2 API 實用指南,涵蓋圖像生成、編輯、工作流程設計及常見實作注意事項。

2 min read
GPT Image 2 API 生成與編輯開發者指南

上週我發布了一個小型產品功能,需要在按鈕後面實現圖片生成。建構第二天,我意識到第一天做的整合決策將決定我未來六個月要承受多少痛苦。這就是沒有人警告你的 GPT Image 2 API 部分。Hello world 很容易。生產環境的佈局才是真正有趣的地方。

我是 Dora。我在發布東西之後寫工作筆記,不是之前。這是我把 OpenAI 的 gpt-image-2 接入真實產品時學到的東西,以及我會告訴其他開發者或 AI 工程團隊在第一個請求發出之前需要思考什麼。

使用 GPT Image 2 API 之前你需要什麼

模型存取、端點與關鍵文件

GPT Image 2 於 2026 年 4 月 21 日發布。模型 ID 是 gpt-image-2。在第一次呼叫之前,你可能需要在開發者控制台完成 API 組織驗證——OpenAI 對 GPT Image 系列設有此門檻。

你有三個介面可以選擇。Image API 提供兩個端點images.generate 用於文字生成圖片,images.edit 用於使用提示詞和可選遮罩修改現有圖片。第三個介面是 Responses API,它將圖片生成作為對話式或多步驟流程的內建工具提供。

依照任務選擇,而非新穎性。 如果你的產品是「使用者輸入提示詞,獲得圖片」,就使用 Image API。如果你的產品是「使用者進行來回對話,有時產生圖片」,就使用 Responses API。因為某個看起來更花俏就混用兩者,是一個維護陷阱。

GPT Image 2 目前支援的功能

有兩件事需要早點內化。

它不支援透明背景。 帶有 background: "transparent" 的請求會失敗。如果你需要透明 PNG,將這些任務路由到 gpt-image-1.5,並接受你現在需要維護兩條模型路徑。

輸入保真度是鎖定的。 input_fidelity 參數存在於舊模型中,但 gpt-image-2 始終以高保真度處理輸入。省略此參數,否則你的請求會失敗。成本影響:帶有參考圖片的編輯請求消耗的輸入 token 可能比你從 gpt-image-1 時代預期的要多。

如何使用 GPT Image 2 生成圖片

基本請求結構與輸出選項

一個生成請求需要提示詞、尺寸、品質和輸出格式。格式預設為 PNG;你可以請求 JPEG 或 WebP,當延遲很重要時,JPEG 比 PNG 更快。尺寸接受預設值或自訂尺寸,限制條件是兩邊都必須是 16 的倍數,單邊最大 3840px,長寬比低於 3:1,總像素在 655,360 到 8,294,400 之間

n 參數讓你在一個請求中生成多張圖片。需要比較變體時很有用。但當你按輸出 token 付費時——你確實是——就沒那麼有用了。

管理尺寸、品質與工作流程的取捨

這是大多數團隊在不知不覺中燒錢的地方。GPT Image 2 按 token 計費,而非按圖片計費:圖片輸入每 100 萬 token $8,圖片輸出每 100 萬 token $30,文字輸入每 100 萬 token $5。快取輸入更便宜。批次處理將標準費率減半。

以實際數字來說:在 1024x1024 下,OpenAI 的計算器估計低品質約 $0.006,中品質 $0.053,高品質 $0.211。1024x1536 等矩形尺寸稍便宜,分別為 $0.005、$0.041 和 $0.165。這些只是輸出的估算。還要加上輸入 token 和編輯參考 token。

因此,取捨問題不是哪個品質看起來最好。而是在我的用量下,中品質和高品質之間的成本差異是多少,以及我的使用者是否真的感知得到。對於縮圖介面,低品質通常就夠了。對於使用者會盯著看的主視覺,高品質值回票價。我選擇中品質作為預設值,並將高品質作為可選功能。這個單一決定將我預計的月費帳單改變了約 4 倍。

圖片編輯的工作原理

輸入要求與常見編輯場景

編輯端點接受一張圖片、可選遮罩,以及描述變更的提示詞。傳入一張圖片來編輯它。傳入多張圖片,將主體、風格或參考合併成一個輸出。模型處理局部重繪和外擴重繪,並在將你的提示詞應用於其餘部分的同時保留未遮罩的區域。

我已驗證的常見編輯:產品照片的背景替換、物件移除、兩張參考圖片之間的風格遷移,以及圖片內的文字翻譯。角色一致性聲明——相同角色出現在多個生成場景中——對我來說在簡單主體上有效。隨著場景複雜度增加,可靠性會下降。

增加成本或降低一致性的錯誤

傳送過大的輸入。 由於 GPT Image 2 以高保真度處理每張圖片輸入,一張 4K 參考照片消耗的輸入 token 相同,無論你的輸出是縮圖還是海報。將參考圖片縮小到任務實際需要的尺寸。

模糊的編輯提示詞。 「讓它更好看」會產生不可預期的變化,而且常常讓你需要重試。「將紅色帽子改為淡藍色絲絨」可以保留圖片其餘部分,通常一次就能成功。

無限制的 n 要求 n=4 來「看看選項」聽起來無害,直到你意識到你剛剛為一個只會用到一個輸出的請求付了 4 倍費用。

將編輯的成本估算當作生成來看待。 編輯的成本通常比相同輸出尺寸的生成更高,因為參考圖片增加了輸入 token。在發布之前而非之後,將這點納入你的定價模型。

團隊的生產環境考量

重試、審核與操作防護措施

有三件事在生產環境中不是可選的。

帶指數退避的重試。 複雜提示詞的圖片生成可能需要長達 2 分鐘,而且你會遇到速率限制。OpenAI 的指導方針是帶抖動的指數退避重試——抖動很重要,因為來自叢集的同步重試會在同一時間撞上相同的速率上限。

兩層審核。 圖片生成端點有一個內建的 moderation 參數(auto 是預設值;low 更寬鬆但仍有過濾)。對於使用者提交的提示詞,在發送給 gpt-image-2 之前先通過免費的 omni-moderation-latest 端點——它同時接受文字和圖片,並在你付費生成之前阻止大多數違反政策的請求。審核 API 參考文件提供了確切的請求格式。

以適當粒度記錄日誌。 記錄每個請求的模型 ID、尺寸、品質、提示詞 token 數、輸出 token 數、延遲、請求 ID 和最終成本估算。當規模上出現問題時,這是讓你能夠診斷的資料。當事情進展順利時,這是讓你決定是否進一步擴展的資料。在生產環境中釘選到特定的模型快照而非浮動別名,這樣行為就不會在你不知情的情況下漂移。生產環境最佳實踐指南涵蓋了金鑰輪換、監控以及其他操作層面的內容。

何時保持直接整合的簡潔性,何時添加平台層

這是我考慮最久的問題。

當你的產品使用一個圖片模型、你的團隊有 API 操作經驗,且你的流量可預測,使得速率限制所有權和第一方計費比便利性更重要時,直接 OpenAI 整合是正確答案。

平台層——是的,我在 WaveSpeedAI 做了一個——在不同情況下才有其存在的價值。你在多個圖片模型之間路由(gpt-image-2 用於排版,另一個模型用於透明 PNG,另一個用於影片)。你需要按次計費的固定價格以預測預算,而非 token 數學。你想要一個整合介面,在不重寫呼叫點的情況下能夠承受提供者更換。

兩個答案都不是普世皆準的。誠實的測試:計算你的產品今天呼叫多少個模型提供者,乘以十二個月後你將呼叫多少個,然後問自己是否想要自己維護那麼多整合。

常見問題

開發者應該為 GPT Image 2 使用哪個端點?

使用 images.generate 進行文字生成圖片,images.edit 用於使用提示詞和可選遮罩修改現有圖片,當生成需要存在於多輪對話中時使用 Responses API 圖片工具。

GPT Image 2 支援圖片編輯嗎?

支援。images.edit 端點接受一張或多張參考圖片加上提示詞,支援遮罩局部重繪和外擴重繪。所有圖片輸入都會自動以高保真度處理。

團隊在生產環境中應該記錄和監控什麼?

最低限度:模型快照 ID、尺寸、品質、輸入和輸出 token 數、延遲、請求 ID、重試次數、審核結果,以及每個請求的最終估算成本。這是讓你能夠重建任何事件並預測支出的資料。

簡單的 API 整合什麼時候會不夠用?

當你呼叫超過一個圖片提供者、當故障模式需要跨提供者回退,或當財務部門要求可預測的按次計費而非基於 token 的變動性時。低於這些門檻,直接整合仍是更乾淨的選擇。

我如何防止提示詞注入和不安全的輸出洩漏到生產環境?

在生成之前通過審核端點執行使用者提示詞,將 image API 的 moderation 參數設為 auto,記錄每個被標記的請求,並遵循 OpenAI 的安全最佳實踐——包括對高風險介面進行人工審核,以及在發布前進行紅隊測試。

結語

GPT Image 2 API 並不難接線。第一個請求只需一個下午。真正重要的決策——品質預設值、編輯成本建模、審核分層、重試行為、是否添加平台層——是那些在你發布後數個月內悄悄累積的決策。有意識地做出選擇。先執行小型試驗。其餘的自然跟上。