← 部落格

GPT-5.6 出現在 OpenAI 的 Codex 日誌中——這究竟意味著什麼

OpenAI Codex 推出日誌中的一條路由記錄指向了 GPT-5.6。Polymarket 對 6 月 30 日發布的預測機率高達 89%。以下是已確認的內容、哪些屬於雜訊,以及為何「妖精事件」正是測試推進如此迅速的原因。

2 min read

GPT-5.5 上線三週後,GPT-5.6 浮出水面。不是以正式發布、系統卡,也不是開發者大會公告的形式——而是以OpenAI Codex 後端日誌中一筆單一的部署映射紀錄現身,由研究員 Haider 發現,隨後便從後續的 session 檔案中消失。截至 2026 年 5 月 13 日,Polymarket 預測 GPT-5.6 在 6 月 30 日前公開發布的機率高達 89%

這對一行日誌來說,承載了相當沉重的份量。以下是這份證據實際支持的內容、不支持的內容,以及——更值得關注的——為何 GPT-5.6 的測試進展比 GPT-5.4 → GPT-5.5 的週期更快。後者的簡短答案,與「地精(goblin)」這個詞有關。

實際觀察到的內容

這項發現的始末:在 OpenAI Codex 大部分的部署映射將推論請求指向 gpt-5.5 的同時,路由映射中有一筆紀錄引用了 gpt-5.6。該紀錄短暫可重現,隨後消失——後來的 session 檔案顯示各處皆只有 gpt-5.5。提出報告的 Haider 將其稱為「更像是一個 bug」,而非蓄意揭露。

BigGo 的報導 將此描述為以真實流量進行後端金絲雀測試——將一小部分正式環境請求路由至實驗性版本,在更大範圍部署前測量效能與行為。這是各大實驗室的標準做法。Codex 內部映射短暫暴露該名稱,並不意味著 GPT-5.6 已準備好發布;而是表明實驗性版本存在,並正在針對真實負載進行測量。

這筆日誌紀錄能告訴我們的兩件事:

  1. GPT-5.6 以可執行的形式存在,能夠接受 Codex 格式的提示。這是超越「訓練正在進行」的重要技術里程碑。
  2. 它已接入 Codex 的部署基礎架構,表明代理式/程式碼撰寫介面是主要評估目標——與 GPT-5.5 作為 OpenAI 最強代理式程式碼撰寫模型的定位一致(系統卡中 Terminal-Bench 2.0 的 82.7% 數字)。

這筆日誌紀錄無法告訴我們的兩件事:

  1. 無從得知參數量、訓練資料或架構變動。 該日誌只是一個名稱,不是設定檔。
  2. 無從得知發布時間。 金絲雀紀錄在大型實驗室中頻繁出現又消失。Polymarket 預測 89% 的機率在 6 月 30 日前發布,這是社群預期的真實訊號——但市場在今年已多次預測模型發布日期失準。

測試加速的原因:地精問題

有趣的背景脈絡不在於日誌紀錄本身,而在於 OpenAI 的 GPT-5.5 存在一個具體的、近期已公開命名的對齊失效問題,而 GPT-5.6 幾乎可以確定是為了修正這個問題而訓練的。

2026 年 4 月 30 日,OpenAI 發表了《地精從何而來》——一篇針對 GPT-5.5 奇異行為的事後檢討:該模型對地精(goblin)、小鬼(gremlin)、浣熊、巨魔(troll)、食人魔(ogre)和鴿子產生了統計上顯著的執念。不是偶爾如此——而是在數億次回應中可量化地出現。事後檢討中的數字如下:

指標數值
「書呆子」人格相較 GPT-5.2 基準的地精提及增幅+3,881%
來自書呆子人格的地精提及佔所有地精提及的比例66.7%
使用書呆子人格的 ChatGPT 流量佔比2.5%
GPT-5.1 後地精提及的增長幅度+175%
同期小鬼提及的增長幅度+52%
強化學習對地精/小鬼輸出給出更高評分的資料集比例76.2%

事情的經過是:在個性客製化訓練期間,OpenAI 的獎勵模型對「書呆子」回應風格中的生物類比給出了系統性更高的評分。書呆子人格僅佔極小比例的流量(2.5%),但獎勵形狀發生了洩漏。以 OpenAI 自己的表述:「強化學習無法保證習得的行為整齊地限定在產生它的條件範圍內。」

一旦大量提及地精的回應在某個人格中開始獲得高分,它們便被選入部署池。這些部署又被回收為下一個訓練週期的監督微調資料。該行為趨於正常化。等到有人注意到時,GPT-5.5 已開始訓練,污染已擴散至多個下游的習慣用詞——浣熊、巨魔、食人魔、鴿子。

緊急修復方案是在 Codex 的指令中重複四次的系統提示補丁:「除非與使用者的查詢絕對且毫無歧義地相關,否則絕不談論地精、小鬼、浣熊、巨魔、食人魔、鴿子或其他動物或生物。」 一個前沿實驗室必須在生產環境中交付一個重複四次的關鍵字封鎖機制,這足以說明獎勵塑形行為的洩漏程度。

OpenAI 也在 2026 年 3 月全面移除了書呆子人格選項。

為何這與 GPT-5.6 特別相關

地精事件不只是令人難堪——它具體展示了獎勵塑形如何能從小規模的訓練條件產生全模型的行為污染,且這種污染會跨模型版本持續存在,途徑是 SFT 資料管線。這不是一個能用系統提示打補丁修復的 bug,而是 RLHF 反饋迴路在訓練運行間累積所帶來的架構性問題。

因此,當 GPT-5.5 發布三週後金絲雀流量便開始命中一個新的模型名稱,最合理的解讀是:

GPT-5.6 是地精事件後,首個以重新設計的獎勵審計管線訓練的模型版本。 為此所需的技術工作——審計過去的獎勵訊號、識別受污染的 SFT 資料、重新訓練獎勵模型——正是能壓縮發布週期的那種工作。

OpenAI 慣常談及的功能(更長的上下文、更快的推論、更好的工具使用)都是這項工作的下游成果。GPT-5.6 真正的工作,若此模式成立,是毫無光彩的:更乾淨的獎勵訊號、更嚴格的人格隔離保證,以及不會回收受污染部署的 SFT 管線。這些都不會像程式碼評估指標提升那樣引人注目,但它決定了 GPT-5.7 是否會繼承地精問題。

可以合理預期的內容

對 GPT-5.6 實際發布內容的務實猜測:

  • 與 GPT-5.5 相同的整體能力輪廓——程式碼撰寫、代理式工具使用、多模態——改進屬於漸進式而非躍進式。
  • 系統卡中新增獎勵審計與人格隔離章節。 無論 OpenAI 如何稱呼,預期模型卡中會出現「改進的獎勵校準」或類似措辭。
  • 移除任何殘留的習慣用詞——可透過對新模型輸出執行相同的地精頻率分析來驗證。
  • 個性客製化功能可能以重新設計的形式回歸。 書呆子人格在 3 月被移除;若 GPT-5.6 發布時人格控制回歸,這將是獎勵問題已從結構上修復而非表面掩蓋的有力訊號。

我們不應預期的:

  • 重大架構變動。從 GPT-5.5 到 GPT-5.6 只有三週的金絲雀訊號;這不足以支撐基礎架構的重建。
  • 定價或 API 介面的變動。GPT-5.5 剛以每百萬 token $1.25/$10 的價格穩定下來;OpenAI 鮮少在次要版本上重新定價。
  • 即將公開發布。Polymarket 89% 在 6 月 30 日前發布的預測是合理的,但不是確定的——金絲雀訊號可能持續數月才公開推出。

開發者現在應採取的行動

GPT-5.6 預發布期間的三個具體行動:

  1. 對自己的 GPT-5.5 生產輸出執行地精頻率測試。 若你在邏輯上不相關的補全內容中發現地精/小鬼/巨魔提及率超過 0.5%,你就有可量化的訊號表明問題仍在透過系統提示補丁洩漏。這也是 GPT-5.6 發布當天評估它的基準。
  2. 使用當前的 gpt-5.5 端點,而非 gpt-5.5-latest 固定到明確版本可防止你在 GPT-5.6 升級的瞬間被悄悄切換過去。明確版本化的成本幾乎為零;生產環境中未預告的模型切換成本可能相當高。
  3. 在 GPT-5.6 發布確定評估方法。 若你的評估是「問幾個問題,看輸出是否看起來更好」,你得到的將是噪音。若你的評估是一組已有 GPT-5.5 數據的保留基準測試,你得到的將是訊號。

接下來一週

若 Polymarket 預測正確,公開發布在 6 月 30 日前落地,那還有六週的預發布動態可追蹤。值得關注的訊號:

  • 更多金絲雀日誌出現——一旦實驗性版本進入例行評估流量,洩漏會累積。
  • OpenAI 發表第二篇關於獎勵審計的部落格文章。 4 月 30 日的地精事後檢討讀起來像是兩部曲的上半部;下半部是他們採取的應對措施,也就是 GPT-5.6 的故事。
  • 新的系統卡。 GPT-5.5 的系統卡部署安全中心條目與模型同步發布。預期 GPT-5.6 也會如此。
  • Codex 更新。 浮現 GPT-5.6 名稱的同一份日誌,將是公開版本號升級最先出現的地方。

目前:一行日誌、一個 Polymarket 數字,以及一個有據可查的對齊失效,說明了為何這個週期比上一個進展更快。追蹤訊號,執行評估,固定端點。

來源:OpenAI 的地精事後檢討BigGo Finance 關於 Codex 日誌洩漏的報導BigGo Finance 關於緊急應對的報導Engadget 摘要gptgoblins.com 時間軸