GPT-5 模型版本詳解:從 GPT-5 到 GPT-5.4
GPT-5 並非單一模型。本指南說明每個 GPT-5.x 版本,以及開發者對這個持續演進的模型家族需要了解的重要資訊。
嗨,我是 Dora。我本來沒打算這週寫關於 GPT-5 模型的文章。只是我又卡在模型下拉選單裡選版本了。短暫猶豫,然後那個熟悉的問題浮現:5.2 在這裡真的有幫助嗎?還是我只是因為它比較新就點了它?
就是這點小摩擦讓我一頭栽進去。我在 2026 年二月底到三月初的幾個晚上,用同樣的任務在 5.x 系列上重複測試:一份精簡的研究摘要、一個結構化的 JSON 提取,以及一個簡單的多檔案程式碼重構。沒什麼花俏的,就是那種要麼感覺更順手、要麼沒差的日常工作。這是我的實地筆記,不是什麼捷報。

為什麼 GPT-5 是一個系統,而非單一模型
我不斷看到人們在談論「那個」GPT-5 模型,好像它是一個你可以直接換進去的單一大腦。但這與我的觀察不符,也和 OpenAI 在文件與公開談話中的暗示不一致。
路由架構概覽
這個行為看起來像一個路由系統:**一個「前門」**悄悄決定哪個內部專家處理你請求的哪個部分。你可以把它想成一個有幾個目標的交通控制器:維持穩定的延遲、達到品質門檻,以及除非提示詞真的有需要,否則避免調用昂貴的專家。這就是為什麼同一個提示詞在「快速」和「預設」設定之間,或在相近的版本之間,感覺會有些不同——系統裡不只一個模型在運作。
在實務上,我曾在以下情況觀察到這些訊號:
- 工具呼叫在特定執行中被更快地接收,好像規劃器更早介入了。
- JSON 模式的可靠性在系統端更新後大幅提升,即使 API 參數沒有變動。
- 在負載下的延遲表現比單一龐大模型應有的表現更好。
我看不到幕後,但輸出結果顯示有一個路由器在權衡成本、速度和任務類型後選擇路徑。這個框架幫助我理解,為什麼兩個標示著**「GPT-5」**的版本行為可以如此不同。
OpenAI 版本命名的運作方式
OpenAI 通常以命名版本和偶爾的「預覽」版本形式發布模型系列。隨著時間推移,某個版本可能成為預設版本,之後再被棄用。**標籤的更新速度往往比部落格文章還快。**當我不確定時,我會在鎖定版本之前查閱 OpenAI 模型文件和 API 更新日誌。也值得瀏覽 API 參考文件,了解版本之間那些細微但重要的標誌(回應結構、JSON 模式、工具呼叫細節)。
所以當我說「GPT-5」時,我指的是以該系列名稱公開的路由系統。而當我說「5.1」或「5.3」時,我指的是該系統的特定配置,通常有不同的預設值、略微不同的路由器,有時還有新的安全或可靠性機制。

GPT-5(基礎版)— 初始能力
我最初把基礎版 GPT-5 當作通才來使用。不是因為它有什麼魔力,而是因為它在很少設定的情況下,能相當好地應對三種常見工作。
發布時的核心功能
- 推理清晰度: 對於規劃任務,例如「幫我草擬一個 3 步驟方法,然後填寫第一步」,基礎模型不需要我過度說明就能遵循結構。不花俏,但穩定。
- 工具使用毫無障礙: 函式呼叫開箱即用。當我要求它提取結構化欄位時,大多數時候它傳遞的參數類型一致。
- 長脈絡下不崩潰: 我輸入了長篇摘要和多部分參考資料,它保持了足夠的連貫性,在我用章節標題作為錨點時尤其有用。
- JSON 模式與回應結構: 使用簡單的結構,第一次嘗試就能獲得可解析輸出的成功率有八到九成。失敗時,失敗方式很明顯(物件截斷),這算是一種奇特的慈悲。
早期限制
- 確定性仍然偏弱:即使使用低溫度參數,重複執行也會在措辭上有細微差異,有時甚至影響排序。在生產環境中,我必須加入輕量的後處理(排序鍵值、正規化空白)來保持差異安靜。
- 工具呼叫記憶:如果我串接工具,模型有時會**「忘記」先前工具的**邊界限制,除非我重新說明。是個小麻煩,但確實存在。
- 延遲尖峰:大多數呼叫都沒問題,但偶爾一兩個會明顯更慢。不是分鐘級別,只是足以打亂緊湊流程的程度。
- 成本意識:基礎版不是最便宜的,所以粗心的長提示詞感覺很耗費成本。我削減了系統訊息,將樣板內容移到程式碼模板中。簡單的步驟,卻有實質的節省。

GPT-5.1 到 GPT-5.3 — 漸進式改變
這些小版本沒有改變 GPT-5 模型的本質,它們只是把螺絲鎖得更緊。
各版本的逐步改進
- 5.1:指令遵循變得更精準。當我要求「只用項目符號,不要引言」時,它更常照做了。JSON 合規性也略有提升。
- 5.2:引用時的依據更扎實。當我提供段落並要求以引用支撐的摘要時,它更乾淨地錨定於引用文字。幻覺現象減少了,雖然未降至零,但足以讓我注意到。
- 5.3:在負載下的工具呼叫感覺更可靠。奇怪的參數形狀變少了。我的日誌中也看到首個 token 速度略微加快,不過這可能是路由器在進行智慧分流,而非模型本身的功勞。
這些都以安靜的方式呈現:更少的重試、更少的清理、提示詞中更少的手把手指導。
面向開發者的差異
- 回應結構:較新的版本以一種好的方式變得更挑剔。當我宣告結構時,它們要麼遵循,要麼快速失敗。這比任何「智慧」提升都為我節省了更多時間。
- 串流差異:token 串流以更穩定的區塊輸出,更容易構建不會抖動的 UI。
- 工具簽章容錯性:5.2 和 5.3 在不即興發揮的情況下處理嚴格類型。如果一個欄位是列舉類型,它不再那麼頻繁地發明新值,減少了防護程式碼的需求。
這些都是小改進,但它們消除了細碎的痛點。如果你在維護代理程式,多次呼叫之下,細小就會變成巨大。
保持不變的部分
- 長脈絡的現實:輸入龐大的脈絡仍然會懲罰延遲和成本,精簡和索引化仍是贏家。
- 風格漂移:即使有範例,在較長的輸出中語調仍會有些漂移。我保留參考片段並要求模型模仿,比用形容詞描述效果更好。
- 「一次就完美」的情況很少見:最好的結果仍來自穩定的鷹架、明確的目標、小步驟和回饋。模型變好了,但我的系統設計影響更大。

GPT-5.4 — 目前洩露資訊所顯示的內容
我在撰寫此文時尚未使用過 5.4。我的依據是公開的線索、開發者的討論、一些人發現的 SDK 參考資料,以及這些系列演進的一般規律。請把這部分當作方向性參考,而非確定性結論。如果你接近發布窗口,請務必確認模型文件和最新的發布說明。
快速模式的相關資訊
關於 5.4 中「快速」或「turbo」路由路徑的討論持續不斷。我的猜測:一個以延遲優先的設定檔,它放寬了一些品質限制,精神上類似於我們在過去系列中見過的速度分級。如果這成真,我預期:
- 更快的首個 token 時間。
- 在格式上的變異性略高,除非使用嚴格結構。
- 對聊天 UI 和即時代理程式有更好的並發行為。
如果你更在乎感知速度而非完美措辭,這可能會成為預設選項。
視覺處理的訊號
一些跡象指向更強的圖像理解能力,以及對雜亂輸入(眩光、傾斜的收據、程式碼截圖)更穩健的 OCR。我也預期在圖表和表格上的回答更加穩定,尤其是當你提供目標結構時。實際影響是:更少的手動預處理。現在我在發送圖像前經常裁切或增強它們。如果 5.4 能吸收更多這類混亂,整個步驟就會消失。
程式碼工作流程的改進
這裡的討論集中在規劃和多檔案編輯上。如果屬實,5.4 可能會:
- 在接觸程式碼之前提出更清晰的步驟計畫。
- 跨檔案保持函式簽章的一致性。
- 減少差一位和匯入路徑的失誤。
即使可靠性只有小幅提升也很重要。在我用早期版本的測試中,70–80% 的「損失時間」不是邏輯問題,而是在清理那些自信但略有錯誤的編輯。如果 5.4 能將這個比例削減 10–15%,感覺就會遠不止是一個漸進式版本。

開發者如何在 GPT-5.x 版本之間做選擇
我不會因為某篇部落格文章告訴我而選擇某個版本。我會執行微小、無聊的測試。以下是我一直使用的框架。
使用情境對應
- 帶有語調控制的內容草稿:我傾向使用較新版本(5.2/5.3),因為風格遵循略有改善。我維護一個小型的語調範例庫並指向它們。
- 結構化提取:哪個版本給我最高的結構合規性,哪個就勝出。最近是搭配明確回應結構的 5.2 或 5.3。我仍然加入驗證器和重試機制。
- 代理程式和工具工作流程:5.3 在函式參數上一直是最穩定的。如果 5.4 的快速模式是真的,我會對需要快速來回交流多於完美文辭的即時代理程式進行 A/B 測試。
- 程式碼輔助:我從短脈絡開始,先請求一個計畫。如果模型無法寫出可信的計畫,它也不會寫出乾淨的差異。相近的 5.x 版本在這裡的差異足夠重要——在你自己的程式庫上測試,而不是在玩具檔案上。
我為每個使用情境追蹤三個數字:首次成功率、平均延遲,以及需要人工清理的呼叫百分比。如果更新版本沒有讓這三個指標中的至少一個往好的方向移動,我就不切換。
成本與能力的取捨
OpenAI 的定價會變動,我不在這裡猜測具體數字。但規律是穩定的:
- 較新的模型不一定更貴,但有時確實如此。我按 token 預算,而不是憑感覺。
- 長提示詞會複利累積成本。我刪除樣板、壓縮範例,並在可以的地方引用外部 ID。
- 如果你批次處理工作(摘要、提取),最便宜的可靠版本通常勝出。如果你面向使用者,感知速度往往比原始成本更重要。
兩個為我節省了金錢和時間的實用技巧:
- 黃金測試集:保留 20–50 個有已知良好輸出的真實提示詞。考慮切換時重新執行它們。不靠記憶,只靠乾淨的比較。你會快速看到取捨。
- 在程式碼中設置防護欄,而非在文字中:結構、驗證器和小型後處理器,勝過長篇指令。
頁面更新政策(持續維護)
當我看到 GPT-5 模型有實質性變化時,通常是在重新執行我的測試集或 OpenAI 文件更新後,我會更新此頁面。我會加上一個附有日期的簡短說明,記錄我測試了什麼,以及有什麼改變(如果有的話)。我盡可能連結官方來源,並在無法驗證某些事情時標示不確定性。
如果你面臨類似的限制,偶爾看看是值得的——但不用等我。模型文件才是真相的來源。我讓我的筆記保持穩定,而非鉅細靡遺。
最後一個小觀察:我越是把「GPT-5」當作一個活的系統而非單一開關來看待,我的決策就越平靜。下拉選單不再感覺像一場考試,它只是一個我帶著理由去轉動的旋鈕。



