GPT Image 2 API 生成與編輯開發者指南

上週我發布了一個小型產品功能，需要在按鈕後面實現圖片生成。建構第二天，我意識到第一天做的整合決策將決定我未來六個月要承受多少痛苦。這就是沒有人警告你的 GPT Image 2 API 部分。Hello world 很容易。生產環境的佈局才是真正有趣的地方。

我是 Dora。我在發布東西之後寫工作筆記，不是之前。這是我把 OpenAI 的 gpt-image-2 接入真實產品時學到的東西，以及我會告訴其他開發者或 AI 工程團隊在第一個請求發出之前需要思考什麼。

使用 GPT Image 2 API 之前你需要什麼

模型存取、端點與關鍵文件

GPT Image 2 於 2026 年 4 月 21 日發布。模型 ID 是 gpt-image-2。在第一次呼叫之前，你可能需要在開發者控制台完成 API 組織驗證——OpenAI 對 GPT Image 系列設有此門檻。

你有三個介面可以選擇。Image API 提供兩個端點：images.generate 用於文字生成圖片，images.edit 用於使用提示詞和可選遮罩修改現有圖片。第三個介面是 Responses API，它將圖片生成作為對話式或多步驟流程的內建工具提供。

依照任務選擇，而非新穎性。 如果你的產品是「使用者輸入提示詞，獲得圖片」，就使用 Image API。如果你的產品是「使用者進行來回對話，有時產生圖片」，就使用 Responses API。因為某個看起來更花俏就混用兩者，是一個維護陷阱。

GPT Image 2 目前支援的功能

有兩件事需要早點內化。

它不支援透明背景。 帶有 background: "transparent" 的請求會失敗。如果你需要透明 PNG，將這些任務路由到 gpt-image-1.5，並接受你現在需要維護兩條模型路徑。

輸入保真度是鎖定的。 input_fidelity 參數存在於舊模型中，但 gpt-image-2 始終以高保真度處理輸入。省略此參數，否則你的請求會失敗。成本影響：帶有參考圖片的編輯請求消耗的輸入 token 可能比你從 gpt-image-1 時代預期的要多。

如何使用 GPT Image 2 生成圖片

基本請求結構與輸出選項

一個生成請求需要提示詞、尺寸、品質和輸出格式。格式預設為 PNG；你可以請求 JPEG 或 WebP，當延遲很重要時，JPEG 比 PNG 更快。尺寸接受預設值或自訂尺寸，限制條件是兩邊都必須是 16 的倍數，單邊最大 3840px，長寬比低於 3:1，總像素在 655,360 到 8,294,400 之間。

n 參數讓你在一個請求中生成多張圖片。需要比較變體時很有用。但當你按輸出 token 付費時——你確實是——就沒那麼有用了。

管理尺寸、品質與工作流程的取捨

這是大多數團隊在不知不覺中燒錢的地方。GPT Image 2 按 token 計費，而非按圖片計費：圖片輸入每 100 萬 token $8，圖片輸出每 100 萬 token $30，文字輸入每 100 萬 token $5。快取輸入更便宜。批次處理將標準費率減半。

以實際數字來說：在 1024x1024 下，OpenAI 的計算器估計低品質約 $0.006，中品質 $0.053，高品質 $0.211。1024x1536 等矩形尺寸稍便宜，分別為 $0.005、$0.041 和 $0.165。這些只是輸出的估算。還要加上輸入 token 和編輯參考 token。

因此，取捨問題不是哪個品質看起來最好。而是在我的用量下，中品質和高品質之間的成本差異是多少，以及我的使用者是否真的感知得到。對於縮圖介面，低品質通常就夠了。對於使用者會盯著看的主視覺，高品質值回票價。我選擇中品質作為預設值，並將高品質作為可選功能。這個單一決定將我預計的月費帳單改變了約 4 倍。

圖片編輯的工作原理

輸入要求與常見編輯場景

編輯端點接受一張圖片、可選遮罩，以及描述變更的提示詞。傳入一張圖片來編輯它。傳入多張圖片，將主體、風格或參考合併成一個輸出。模型處理局部重繪和外擴重繪，並在將你的提示詞應用於其餘部分的同時保留未遮罩的區域。

我已驗證的常見編輯：產品照片的背景替換、物件移除、兩張參考圖片之間的風格遷移，以及圖片內的文字翻譯。角色一致性聲明——相同角色出現在多個生成場景中——對我來說在簡單主體上有效。隨著場景複雜度增加，可靠性會下降。

增加成本或降低一致性的錯誤

傳送過大的輸入。 由於 GPT Image 2 以高保真度處理每張圖片輸入，一張 4K 參考照片消耗的輸入 token 相同，無論你的輸出是縮圖還是海報。將參考圖片縮小到任務實際需要的尺寸。

模糊的編輯提示詞。 「讓它更好看」會產生不可預期的變化，而且常常讓你需要重試。「將紅色帽子改為淡藍色絲絨」可以保留圖片其餘部分，通常一次就能成功。

無限制的 n。 要求 n=4 來「看看選項」聽起來無害，直到你意識到你剛剛為一個只會用到一個輸出的請求付了 4 倍費用。

將編輯的成本估算當作生成來看待。 編輯的成本通常比相同輸出尺寸的生成更高，因為參考圖片增加了輸入 token。在發布之前而非之後，將這點納入你的定價模型。

團隊的生產環境考量

重試、審核與操作防護措施

有三件事在生產環境中不是可選的。

帶指數退避的重試。 複雜提示詞的圖片生成可能需要長達 2 分鐘，而且你會遇到速率限制。OpenAI 的指導方針是帶抖動的指數退避重試——抖動很重要，因為來自叢集的同步重試會在同一時間撞上相同的速率上限。

兩層審核。 圖片生成端點有一個內建的 moderation 參數（auto 是預設值；low 更寬鬆但仍有過濾）。對於使用者提交的提示詞，在發送給 gpt-image-2 之前先通過免費的 omni-moderation-latest 端點——它同時接受文字和圖片，並在你付費生成之前阻止大多數違反政策的請求。審核 API 參考文件提供了確切的請求格式。

以適當粒度記錄日誌。 記錄每個請求的模型 ID、尺寸、品質、提示詞 token 數、輸出 token 數、延遲、請求 ID 和最終成本估算。當規模上出現問題時，這是讓你能夠診斷的資料。當事情進展順利時，這是讓你決定是否進一步擴展的資料。在生產環境中釘選到特定的模型快照而非浮動別名，這樣行為就不會在你不知情的情況下漂移。生產環境最佳實踐指南涵蓋了金鑰輪換、監控以及其他操作層面的內容。

何時保持直接整合的簡潔性，何時添加平台層

這是我考慮最久的問題。

當你的產品使用一個圖片模型、你的團隊有 API 操作經驗，且你的流量可預測，使得速率限制所有權和第一方計費比便利性更重要時，直接 OpenAI 整合是正確答案。

平台層——是的，我在 WaveSpeedAI 做了一個——在不同情況下才有其存在的價值。你在多個圖片模型之間路由（gpt-image-2 用於排版，另一個模型用於透明 PNG，另一個用於影片）。你需要按次計費的固定價格以預測預算，而非 token 數學。你想要一個整合介面，在不重寫呼叫點的情況下能夠承受提供者更換。

兩個答案都不是普世皆準的。誠實的測試：計算你的產品今天呼叫多少個模型提供者，乘以十二個月後你將呼叫多少個，然後問自己是否想要自己維護那麼多整合。

常見問題

開發者應該為 GPT Image 2 使用哪個端點？

使用 images.generate 進行文字生成圖片，images.edit 用於使用提示詞和可選遮罩修改現有圖片，當生成需要存在於多輪對話中時使用 Responses API 圖片工具。

GPT Image 2 支援圖片編輯嗎？

支援。images.edit 端點接受一張或多張參考圖片加上提示詞，支援遮罩局部重繪和外擴重繪。所有圖片輸入都會自動以高保真度處理。

團隊在生產環境中應該記錄和監控什麼？

最低限度：模型快照 ID、尺寸、品質、輸入和輸出 token 數、延遲、請求 ID、重試次數、審核結果，以及每個請求的最終估算成本。這是讓你能夠重建任何事件並預測支出的資料。

簡單的 API 整合什麼時候會不夠用？

當你呼叫超過一個圖片提供者、當故障模式需要跨提供者回退，或當財務部門要求可預測的按次計費而非基於 token 的變動性時。低於這些門檻，直接整合仍是更乾淨的選擇。

我如何防止提示詞注入和不安全的輸出洩漏到生產環境？

在生成之前通過審核端點執行使用者提示詞，將 image API 的 moderation 參數設為 auto，記錄每個被標記的請求，並遵循 OpenAI 的安全最佳實踐——包括對高風險介面進行人工審核，以及在發布前進行紅隊測試。

結語

GPT Image 2 API 並不難接線。第一個請求只需一個下午。真正重要的決策——品質預設值、編輯成本建模、審核分層、重試行為、是否添加平台層——是那些在你發布後數個月內悄悄累積的決策。有意識地做出選擇。先執行小型試驗。其餘的自然跟上。