GPT-5 模型版本詳解：從 GPT-5 到 GPT-5.4

嗨，我是 Dora。我本來沒打算這週寫關於 GPT-5 模型的文章。只是我又卡在模型下拉選單裡選版本了。短暫猶豫，然後那個熟悉的問題浮現：5.2 在這裡真的有幫助嗎？還是我只是因為它比較新就點了它？

就是這點小摩擦讓我一頭栽進去。我在 2026 年二月底到三月初的幾個晚上，用同樣的任務在 5.x 系列上重複測試：一份精簡的研究摘要、一個結構化的 JSON 提取，以及一個簡單的多檔案程式碼重構。沒什麼花俏的，就是那種要麼感覺更順手、要麼沒差的日常工作。這是我的實地筆記，不是什麼捷報。

為什麼 GPT-5 是一個系統，而非單一模型

我不斷看到人們在談論「那個」GPT-5 模型，好像它是一個你可以直接換進去的單一大腦。但這與我的觀察不符，也和 OpenAI 在文件與公開談話中的暗示不一致。

路由架構概覽

這個行為看起來像一個路由系統：**一個「前門」**悄悄決定哪個內部專家處理你請求的哪個部分。你可以把它想成一個有幾個目標的交通控制器：維持穩定的延遲、達到品質門檻，以及除非提示詞真的有需要，否則避免調用昂貴的專家。這就是為什麼同一個提示詞在「快速」和「預設」設定之間，或在相近的版本之間，感覺會有些不同——系統裡不只一個模型在運作。

在實務上，我曾在以下情況觀察到這些訊號：

工具呼叫在特定執行中被更快地接收，好像規劃器更早介入了。
JSON 模式的可靠性在系統端更新後大幅提升，即使 API 參數沒有變動。
在負載下的延遲表現比單一龐大模型應有的表現更好。

我看不到幕後，但輸出結果顯示有一個路由器在權衡成本、速度和任務類型後選擇路徑。這個框架幫助我理解，為什麼兩個標示著**「GPT-5」**的版本行為可以如此不同。

OpenAI 版本命名的運作方式

OpenAI 通常以命名版本和偶爾的「預覽」版本形式發布模型系列。隨著時間推移，某個版本可能成為預設版本，之後再被棄用。**標籤的更新速度往往比部落格文章還快。**當我不確定時，我會在鎖定版本之前查閱 OpenAI 模型文件和 API 更新日誌。也值得瀏覽 API 參考文件，了解版本之間那些細微但重要的標誌（回應結構、JSON 模式、工具呼叫細節）。

所以當我說「GPT-5」時，我指的是以該系列名稱公開的路由系統。而當我說「5.1」或「5.3」時，我指的是該系統的特定配置，通常有不同的預設值、略微不同的路由器，有時還有新的安全或可靠性機制。

GPT-5（基礎版）— 初始能力

我最初把基礎版 GPT-5 當作通才來使用。不是因為它有什麼魔力，而是因為它在很少設定的情況下，能相當好地應對三種常見工作。

發布時的核心功能

推理清晰度： 對於規劃任務，例如「幫我草擬一個 3 步驟方法，然後填寫第一步」，基礎模型不需要我過度說明就能遵循結構。不花俏，但穩定。
工具使用毫無障礙： 函式呼叫開箱即用。當我要求它提取結構化欄位時，大多數時候它傳遞的參數類型一致。
長脈絡下不崩潰： 我輸入了長篇摘要和多部分參考資料，它保持了足夠的連貫性，在我用章節標題作為錨點時尤其有用。
JSON 模式與回應結構： 使用簡單的結構，第一次嘗試就能獲得可解析輸出的成功率有八到九成。失敗時，失敗方式很明顯（物件截斷），這算是一種奇特的慈悲。

早期限制

確定性仍然偏弱：即使使用低溫度參數，重複執行也會在措辭上有細微差異，有時甚至影響排序。在生產環境中，我必須加入輕量的後處理（排序鍵值、正規化空白）來保持差異安靜。
工具呼叫記憶：如果我串接工具，模型有時會**「忘記」先前工具的**邊界限制，除非我重新說明。是個小麻煩，但確實存在。
延遲尖峰：大多數呼叫都沒問題，但偶爾一兩個會明顯更慢。不是分鐘級別，只是足以打亂緊湊流程的程度。
成本意識：基礎版不是最便宜的，所以粗心的長提示詞感覺很耗費成本。我削減了系統訊息，將樣板內容移到程式碼模板中。簡單的步驟，卻有實質的節省。

GPT-5.1 到 GPT-5.3 — 漸進式改變

這些小版本沒有改變 GPT-5 模型的本質，它們只是把螺絲鎖得更緊。

各版本的逐步改進

5.1：指令遵循變得更精準。當我要求「只用項目符號，不要引言」時，它更常照做了。JSON 合規性也略有提升。
5.2：引用時的依據更扎實。當我提供段落並要求以引用支撐的摘要時，它更乾淨地錨定於引用文字。幻覺現象減少了，雖然未降至零，但足以讓我注意到。
5.3：在負載下的工具呼叫感覺更可靠。奇怪的參數形狀變少了。我的日誌中也看到首個 token 速度略微加快，不過這可能是路由器在進行智慧分流，而非模型本身的功勞。

這些都以安靜的方式呈現：更少的重試、更少的清理、提示詞中更少的手把手指導。

面向開發者的差異

回應結構：較新的版本以一種好的方式變得更挑剔。當我宣告結構時，它們要麼遵循，要麼快速失敗。這比任何「智慧」提升都為我節省了更多時間。
串流差異：token 串流以更穩定的區塊輸出，更容易構建不會抖動的 UI。
工具簽章容錯性：5.2 和 5.3 在不即興發揮的情況下處理嚴格類型。如果一個欄位是列舉類型，它不再那麼頻繁地發明新值，減少了防護程式碼的需求。

這些都是小改進，但它們消除了細碎的痛點。如果你在維護代理程式，多次呼叫之下，細小就會變成巨大。

保持不變的部分

長脈絡的現實：輸入龐大的脈絡仍然會懲罰延遲和成本，精簡和索引化仍是贏家。
風格漂移：即使有範例，在較長的輸出中語調仍會有些漂移。我保留參考片段並要求模型模仿，比用形容詞描述效果更好。
「一次就完美」的情況很少見：最好的結果仍來自穩定的鷹架、明確的目標、小步驟和回饋。模型變好了，但我的系統設計影響更大。

GPT-5.4 — 目前洩露資訊所顯示的內容

我在撰寫此文時尚未使用過 5.4。我的依據是公開的線索、開發者的討論、一些人發現的 SDK 參考資料，以及這些系列演進的一般規律。請把這部分當作方向性參考，而非確定性結論。如果你接近發布窗口，請務必確認模型文件和最新的發布說明。

快速模式的相關資訊

關於 5.4 中「快速」或「turbo」路由路徑的討論持續不斷。我的猜測：一個以延遲優先的設定檔，它放寬了一些品質限制，精神上類似於我們在過去系列中見過的速度分級。如果這成真，我預期：

更快的首個 token 時間。
在格式上的變異性略高，除非使用嚴格結構。
對聊天 UI 和即時代理程式有更好的並發行為。

如果你更在乎感知速度而非完美措辭，這可能會成為預設選項。

視覺處理的訊號

一些跡象指向更強的圖像理解能力，以及對雜亂輸入（眩光、傾斜的收據、程式碼截圖）更穩健的 OCR。我也預期在圖表和表格上的回答更加穩定，尤其是當你提供目標結構時。實際影響是：更少的手動預處理。現在我在發送圖像前經常裁切或增強它們。如果 5.4 能吸收更多這類混亂，整個步驟就會消失。

程式碼工作流程的改進

這裡的討論集中在規劃和多檔案編輯上。如果屬實，5.4 可能會：

在接觸程式碼之前提出更清晰的步驟計畫。
跨檔案保持函式簽章的一致性。
減少差一位和匯入路徑的失誤。

即使可靠性只有小幅提升也很重要。在我用早期版本的測試中，70–80% 的「損失時間」不是邏輯問題，而是在清理那些自信但略有錯誤的編輯。如果 5.4 能將這個比例削減 10–15%，感覺就會遠不止是一個漸進式版本。

開發者如何在 GPT-5.x 版本之間做選擇

我不會因為某篇部落格文章告訴我而選擇某個版本。我會執行微小、無聊的測試。以下是我一直使用的框架。

使用情境對應

帶有語調控制的內容草稿：我傾向使用較新版本（5.2/5.3），因為風格遵循略有改善。我維護一個小型的語調範例庫並指向它們。
結構化提取：哪個版本給我最高的結構合規性，哪個就勝出。最近是搭配明確回應結構的 5.2 或 5.3。我仍然加入驗證器和重試機制。
代理程式和工具工作流程：5.3 在函式參數上一直是最穩定的。如果 5.4 的快速模式是真的，我會對需要快速來回交流多於完美文辭的即時代理程式進行 A/B 測試。
程式碼輔助：我從短脈絡開始，先請求一個計畫。如果模型無法寫出可信的計畫，它也不會寫出乾淨的差異。相近的 5.x 版本在這裡的差異足夠重要——在你自己的程式庫上測試，而不是在玩具檔案上。

我為每個使用情境追蹤三個數字：首次成功率、平均延遲，以及需要人工清理的呼叫百分比。如果更新版本沒有讓這三個指標中的至少一個往好的方向移動，我就不切換。

成本與能力的取捨

OpenAI 的定價會變動，我不在這裡猜測具體數字。但規律是穩定的：

較新的模型不一定更貴，但有時確實如此。我按 token 預算，而不是憑感覺。
長提示詞會複利累積成本。我刪除樣板、壓縮範例，並在可以的地方引用外部 ID。
如果你批次處理工作（摘要、提取），最便宜的可靠版本通常勝出。如果你面向使用者，感知速度往往比原始成本更重要。

兩個為我節省了金錢和時間的實用技巧：

黃金測試集：保留 20–50 個有已知良好輸出的真實提示詞。考慮切換時重新執行它們。不靠記憶，只靠乾淨的比較。你會快速看到取捨。
在程式碼中設置防護欄，而非在文字中：結構、驗證器和小型後處理器，勝過長篇指令。

頁面更新政策（持續維護）

當我看到 GPT-5 模型有實質性變化時，通常是在重新執行我的測試集或 OpenAI 文件更新後，我會更新此頁面。我會加上一個附有日期的簡短說明，記錄我測試了什麼，以及有什麼改變（如果有的話）。我盡可能連結官方來源，並在無法驗證某些事情時標示不確定性。

如果你面臨類似的限制，偶爾看看是值得的——但不用等我。模型文件才是真相的來源。我讓我的筆記保持穩定，而非鉅細靡遺。

最後一個小觀察：我越是把「GPT-5」當作一個活的系統而非單一開關來看待，我的決策就越平靜。下拉選單不再感覺像一場考試，它只是一個我帶著理由去轉動的旋鈕。