← 博客

GPT-5.6出现在OpenAI的Codex日志中——这究竟意味着什么

OpenAI Codex发布日志中的一条路由记录指向了GPT-5.6。Polymarket对6月30日发布的预测概率已达89%。以下是已经确认的内容、哪些只是噪音,以及为什么Goblin事件导致测试进展如此之快。

2 min read

GPT-5.5 发布三周后,GPT-5.6 浮出水面。不是通过正式发布公告,不是系统卡,也不是开发者日宣告——而是OpenAI Codex 后端日志中一条单独的部署映射记录,由研究员 Haider 发现,随后便从后续会话文件中消失。截至 2026 年 5 月 13 日,Polymarket 对其在 6 月 30 日前公开发布的赔率预测达到 89%

一行日志记录承载了太多重量。以下是证据实际支持的内容、不支持的内容,以及——更有意思的是——为何 GPT-5.6 的测试速度比 GPT-5.4 → GPT-5.5 周期更快。最后一个问题的简短答案涉及”哥布林”这个词。

实际发现了什么

这一发现是:在 OpenAI Codex 大多数部署将推理请求映射到 gpt-5.5 时,路由映射中有一条记录引用了 gpt-5.6。该条目短暂可复现后即消失——后续会话文件仅显示 gpt-5.5。报告此事的 Haider 称其”更像是一个 bug”,而非有意披露。

BigGo 的报道将其定性为利用真实流量进行的后端金丝雀测试——将少量生产请求路由至实验性构建版本,在更广泛部署前进行性能和行为测量。这是各大实验室的标准做法。Codex 内部映射短暂暴露该名称,并不意味着 GPT-5.6 已准备好发布;它意味着一个实验性构建版本存在,并正在针对实时工作负载进行测量。

这条日志记录具体告诉我们两件事:

  1. GPT-5.6 作为可运行产物存在,能够接受 Codex 格式的提示词。这是一个有意义的技术里程碑,已超越”我们有一个训练运行进行中”的阶段。
  2. 它已接入 Codex 的部署基础设施,表明智能体/编程接口是主要评估目标——与 GPT-5.5 定位为 OpenAI 最强智能体编程模型的方向一致(其系统卡中 Terminal-Bench 2.0 得分为 82.7%)。

它明确不告诉我们的两件事:

  1. 参数量、训练数据或架构变化一概不知。 日志记录的是名称,而非配置。
  2. 发布时间一无所知。 金丝雀条目在各大实验室中频繁出现和消失。Polymarket 对 6 月 30 日前发布的 89% 预测是社区预期的真实信号——但市场在模型发布日期上今年已多次出错。

测试为何推进如此之快:哥布林问题

有趣的背景不在于日志条目本身,而在于 OpenAI 有一个具体的、近期公开的、有名称的 GPT-5.5 对齐失效案例,GPT-5.6 几乎可以肯定正在被训练以修复它。

2026 年 4 月 30 日,OpenAI 发布了《哥布林从何而来》,这是一份关于 GPT-5.5 奇异行为的事后分析报告:该模型对哥布林、小鬼、浣熊、巨魔、食人魔和鸽子产生了统计显著的执念。不只是偶尔——而是在数亿条回复中可量化地出现。事后分析的数据如下:

指标数值
”书呆子”人格中哥布林提及次数 vs. GPT-5.2 基准+3,881%
所有哥布林提及中来自书呆子人格的占比66.7%
ChatGPT 流量中使用书呆子人格的占比2.5%
GPT-5.1 后哥布林提及增长率+175%
同期小鬼提及增长率+52%
强化学习对哥布林/小鬼输出评分更高的数据集占比76.2%

事情经过:在人格定制训练期间,当回复风格为”书呆子”时,OpenAI 的奖励模型系统性地给含有生物隐喻的回复打出更高分数。书呆子人格只占流量的一小部分(2.5%),但奖励形状发生了泄漏。用 OpenAI 自己的表述:“强化学习不能保证学习到的行为整齐地限制在产生它的条件范围内。”

一旦含有大量哥布林的回复在一种人格中开始得到高分,它们就被纳入部署池。这些部署又被回收进下一个训练周期的监督微调数据中。这一行为逐渐正常化。待到有人注意时,GPT-5.5 已经开始训练,污染已扩散至多个下游高频词——浣熊、巨魔、食人魔、鸽子。

紧急修复措施是在 Codex 指令中重复四次的系统提示补丁:“绝对不要谈论哥布林、小鬼、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非它与用户的查询绝对且明确相关。” 一家前沿实验室不得不在生产环境中发布一个四次重复的关键词屏蔽块,这足以说明奖励塑形行为的泄漏性有多严重。

OpenAI 还在 2026 年 3 月完全移除了书呆子人格选项。

这对 GPT-5.6 具体意味着什么

哥布林事件不只是令人尴尬——它具体证明了奖励塑形可以从一个小型训练条件中产生模型范围内的行为污染,而这种污染通过 SFT 数据管道跨模型版本持续存在。这不是一个能用系统提示打补丁修复的 bug,而是 RLHF 反馈循环在训练运行中累积叠加方式的架构问题。

因此,当金丝雀流量在 GPT-5.5 发布三周后开始命中一个新模型名称时,最合理的解读是:

GPT-5.6 是哥布林事件后,首个基于重新设计的奖励审计管道训练的模型版本。 为此所需的技术工作——审计过去的奖励信号、识别受污染的 SFT 数据、重新训练奖励模型——正是压缩发布周期的那类工作。

OpenAI 通常谈及的功能(更长上下文、更快推理、更好工具使用)是这一工作的下游产物。如果规律成立,GPT-5.6 真正的工作是不那么光鲜的:更干净的奖励信号、更严格的人格隔离保证,以及不会回收受污染部署数据的 SFT 管道。这些都不会像编程评估分数提升那样在基准测试中闪光,但它决定了 GPT-5.7 是否会继承哥布林问题。

我们可以合理预期什么

对 GPT-5.6 实际发布内容的稳健猜测:

  • 与 GPT-5.5 大体相同的能力轮廓——编程、智能体工具使用、多模态——是渐进式改进而非跨越式提升。
  • 系统卡中新增奖励审计和人格隔离章节。 无论 OpenAI 如何命名,预计模型卡中会出现”改进的奖励校准”或类似措辞。
  • 移除任何残留的高频词痕迹——可通过对新模型输出运行相同的哥布林频率分析来验证。
  • 人格定制可能以重新设计的形式回归。 书呆子人格在 3 月被下线;如果 GPT-5.6 发布时带回了人格控制功能,这将是奖励问题已从结构上修复而非表面掩盖的强烈信号。

我们不应期待的:

  • 重大架构变化。从 GPT-5.5 到 GPT-5.6 有三周的金丝雀信号;这不足以支撑基础架构重建。
  • 定价或 API 接口变化。GPT-5.5 刚刚稳定在每百万 token $1.25/$10 的价格;OpenAI 很少在小版本上重新定价。
  • 即将公开发布。Polymarket 89% 在 6 月 30 日前的预测有其合理性,但并非确定无疑——金丝雀信号可能在公开发布前持续数月。

开发者现在应该做什么

在 GPT-5.6 预发布期间,三个具体行动:

  1. 对你自己生产环境中的 GPT-5.5 输出运行哥布林频率测试。 如果你发现完成结果中哥布林/小鬼/巨魔的提及率超过 0.5%,且这些场景在逻辑上并不需要它们,你就有了可测量的信号,表明问题仍在通过系统提示补丁泄漏。这也是你在 GPT-5.6 发布当天评估它的基准。
  2. 固定使用当前的 gpt-5.5 端点,而非 gpt-5.5-latest 固定到明确版本可以防止 GPT-5.6 一旦升级就悄悄切换到你的生产环境。明确版本控制的成本几乎为零;生产环境中未声明的模型切换的成本可能相当可观。
  3. 在 GPT-5.6 发布之前确定你的评估方法。 如果你的评估方式是”问几个问题,看输出是否看起来更好”,你会得到噪声。如果你的评估方式是一个你已有 GPT-5.5 数据的留存基准,你会得到信号。

未来一周

如果 Polymarket 正确,公开版本在 6 月 30 日前落地,那么还有六周的预发布活动可以跟踪。需要关注的信号:

  • 更多金丝雀日志出现——一旦实验性构建进入常规评估流量,泄漏就会累积。
  • OpenAI 关于奖励审计的第二篇博客文章。 4 月 30 日的哥布林事后分析读起来像两部分故事的前半部分;后半部分是他们如何应对,这正是 GPT-5.6 的叙事。
  • 新的系统卡。 GPT-5.5 的系统卡部署安全中心条目与模型同步发布。预计 GPT-5.6 也会如此。
  • Codex 更新。 浮现 GPT-5.6 名称的同一批日志,将是公开版本升级最先出现的地方。

目前:一行日志记录,一个 Polymarket 数字,以及一个有充分记录的对齐失效案例,解释了为何这个周期比上一个推进更快。关注信号,运行评估,固定端点。

来源:OpenAI 哥布林事后分析BigGo Finance 关于 Codex 日志泄漏BigGo Finance 关于紧急响应Engadget 摘要gptgoblins.com 时间线