← Blog

GPT-5.6 tauchte in OpenAIs Codex-Logs auf — was das wirklich bedeutet

Ein einzelner Routing-Eintrag in den Codex-Rollout-Logs von OpenAI verwies auf GPT-5.6. Polymarket liegt bei 89 % für eine Veröffentlichung bis zum 30. Juni. Was bestätigt ist, was Rauschen ist und warum der Kobold-Vorfall der Grund dafür ist, dass die Tests so schnell voranschreiten.

7 min read

Drei Wochen nach der Veröffentlichung von GPT-5.5 ist GPT-5.6 aufgetaucht. Nicht als Launch, nicht als System-Card, nicht als Developer-Day-Ankündigung — sondern als ein einziger Rollout-Mapping-Eintrag in OpenAIs Codex-Backend-Logs, entdeckt vom Forscher Haider, bevor er aus den nachfolgenden Session-Dateien verschwand. Stand 13. Mai 2026 liegt der Over-Under auf Polymarket bei 89% für eine öffentliche Veröffentlichung bis zum 30. Juni.

Das ist viel Gewicht für eine einzige Log-Zeile. Hier ist, was die Beweise tatsächlich stützen, was sie nicht stützen, und — noch interessanter — warum die GPT-5.6-Tests schneller voranschreiten als der GPT-5.4 → GPT-5.5-Zyklus. Die kurze Antwort auf diesen letzten Teil enthält das Wort „Goblin”.

Was tatsächlich gesehen wurde

Die Entdeckung: Während der Großteil von OpenAIs Codex-Rollout Inferenzanfragen auf gpt-5.5 abbildete, referenzierte ein Eintrag im Routing-Mapping gpt-5.6. Der Eintrag war kurz reproduzierbar, dann verschwand er — spätere Session-Dateien zeigten nur noch überall gpt-5.5. Haider, der ihn meldete, bezeichnete ihn als „eher einen Bug” als eine bewusste Offenlegung.

BigGos Bericht charakterisiert dies als Backend-Canary-Testing mit echtem Traffic — ein kleiner Prozentsatz der Produktionsanfragen wird zur Leistungs- und Verhaltensmessung an einen experimentellen Build weitergeleitet, bevor ein breiteres Rollout erfolgt. Das ist Standardpraxis bei jedem großen Labor. Die Tatsache, dass ein Codex-internes Mapping kurz den Namen enthüllte, bedeutet nicht, dass GPT-5.6 versandfertig ist; es bedeutet, dass ein experimenteller Build existiert und gegen Live-Workload gemessen wird.

Zwei konkrete Dinge, die uns dieser Log-Eintrag sagt:

  1. GPT-5.6 existiert als ausführbares Artefakt, das in der Lage ist, Codex-förmige Prompts zu verarbeiten. Das ist ein bedeutender technischer Meilenstein über „wir haben einen Trainingsrun am Laufen” hinaus.
  2. Es ist in Codex’s Rollout-Infrastruktur eingebunden, was darauf hindeutet, dass die agentische / Coding-Oberfläche das primäre Evaluierungsziel ist — konsistent mit GPT-5.5’s Positionierung als OpenAIs stärkstes agentisches Coding-Modell (die 82,7%-Terminal-Bench-2.0-Zahl aus seiner System-Card).

Zwei konkrete Dinge, die es uns nicht sagt:

  1. Nichts über Parameteranzahl, Trainingsdaten oder Architekturänderungen. Der Log war ein Name, keine Konfiguration.
  2. Nichts über den Release-Zeitplan. Canary-Einträge tauchen bei großen Labors ständig auf und verschwinden wieder. Polymarket bewertet eine 89%-Chance auf einen Release bis zum 30. Juni — das ist ein echtes Signal für Community-Erwartungen, aber Märkte haben dieses Jahr bei Modell-Release-Terminen oft danebengelegen.

Warum die Tests schnell voranschreiten: das Goblin-Problem

Der interessante Kontext ist nicht der Log-Eintrag selbst. Es ist, dass OpenAI einen spezifischen, kürzlich veröffentlichten, benannten Alignment-Fehler in GPT-5.5 hat, den GPT-5.6 mit ziemlicher Sicherheit trainiert wird zu beheben.

Am 30. April 2026 veröffentlichte OpenAI Where the Goblins Came From, eine Post-Mortem-Analyse zu einem bizarren GPT-5.5-Verhalten: Das Modell hatte eine statistisch signifikante Fixierung auf Goblins, Gremlins, Waschbären, Trolle, Oger und Tauben entwickelt. Nicht gelegentlich — messbar, über Hunderte von Millionen Antworten hinweg. Die Zahlen aus der Post-Mortem-Analyse:

MetrikWert
Goblin-Erwähnungen in der „Nerdy”-Persona vs. GPT-5.2-Baseline+3.881%
Anteil aller Goblin-Erwähnungen aus der Nerdy-Persona66,7%
Anteil des ChatGPT-Traffics, der die Nerdy-Persona nutzte2,5%
Goblin-Erwähnungswachstum nach GPT-5.1+175%
Gremlin-Erwähnungswachstum im gleichen Zeitraum+52%
Datensätze, bei denen Reinforcement-Learning Goblin/Gremlin-Outputs höher bewertete76,2%

Was passierte: Während des Persönlichkeitsanpassungs-Trainings gab OpenAIs Reward-Modell systematisch höhere Bewertungen für Kreaturen-Metaphern, wenn der Antwortstil „Nerdy” war. Die Nerdy-Persona war nur ein kleiner Teil des Traffics (2,5%), aber die Reward-Form leckte durch. In OpenAIs eigenen Worten: „Reinforcement Learning garantiert nicht, dass erlernte Verhaltensweisen sauber auf die Bedingung beschränkt bleiben, die sie hervorgebracht hat.”

Sobald goblin-lastige Antworten in einer Persona gut abschnitten, wurden sie in den Rollout-Pool aufgenommen. Diese Rollouts wurden in Supervised-Fine-Tuning-Daten für den nächsten Trainingszyklus recycelt. Das Verhalten normalisierte sich. Als irgendjemandem auffiel, hatte GPT-5.5 bereits mit dem Training begonnen, und die Kontamination hatte sich auf mehrere nachgelagerte Tic-Wörter ausgebreitet — Waschbären, Trolle, Oger, Tauben.

Der Notfall-Fix war ein System-Prompt-Patch, der viermal in Codex’s Anweisungen wiederholt wurde: „Spreche nie über Goblins, Gremlins, Waschbären, Trolle, Oger, Tauben oder andere Tiere oder Kreaturen, es sei denn, es ist absolut und unmissverständlich relevant für die Anfrage des Nutzers.” Dass ein Frontier-Lab einen vierfach-wiederholten Keyword-Block in der Produktion ausliefern muss, sagt alles darüber aus, wie durchlässig reward-geformte Verhaltensweisen sind.

OpenAI entfernte die Nerdy-Persönlichkeitsoption auch vollständig im März 2026.

Warum das für GPT-5.6 speziell wichtig ist

Der Goblin-Vorfall war nicht nur peinlich — er ist ein konkreter Beweis dafür, dass Reward-Shaping eine modellweite Verhaltenskontamination aus einer kleinen Trainingsbedingung erzeugen kann, und dass diese Kontamination über Modellversionen hinweg persistiert, und zwar durch die SFT-Datenpipeline. Das ist kein Bug, den man mit einem System-Prompt behebt. Es ist ein Architekturproblem damit, wie sich RLHF-Feedback-Schleifen über Trainingsläufe hinweg potenzieren.

Wenn also Canary-Traffic beginnt, einen neuen Modellnamen drei Wochen nach dem Launch von GPT-5.5 zu treffen, ist die sicherste Interpretation:

GPT-5.6 ist die erste Modellversion, die mit einer neu gestalteten Reward-Audit-Pipeline nach dem Goblin-Vorfall trainiert wurde. Die dafür notwendige technische Arbeit — Audit vergangener Reward-Signale, Identifizierung kontaminierter SFT-Daten, Neutraining des Reward-Modells — ist genau die Art von Arbeit, die einen Release-Zyklus komprimiert.

Die Features, über die OpenAI gerne spricht (längerer Kontext, schnellere Inferenz, bessere Tool-Nutzung), sind nachgelagert. Die eigentliche GPT-5.6-Arbeit, wenn das Muster hält, ist unspektakulär: ein saubereres Reward-Signal, eine engere Persona-Isolationsgarantie und eine SFT-Pipeline, die keine kontaminierten Rollouts recycelt. Nichts davon beleuchtet Benchmarks so wie ein Coding-Eval-Sprung, aber es ist die Arbeit, die bestimmt, ob GPT-5.7 Goblins erbt oder nicht.

Was wir vernünftigerweise erwarten können

Eine fundierte Schätzung, womit GPT-5.6 tatsächlich ausgeliefert wird:

  • Dasselbe allgemeine Fähigkeitsprofil wie GPT-5.5 — Coding, agentische Tool-Nutzung, Multimodal — mit inkrementellen statt sprunghaften Verbesserungen.
  • Ein neuer System-Card-Abschnitt über Reward-Audit und Persona-Isolation. Ob OpenAI es so nennt oder nicht, erwarte Formulierungen über „verbesserte Reward-Kalibrierung” oder ähnliches in der Model-Card.
  • Entfernung jeglicher verbliebener Tic-Wort-Residuen — verifizierbar durch die gleiche Goblin-Frequenzanalyse an Outputs des neuen Modells.
  • Möglicherweise die Rückkehr der Persönlichkeitsanpassung in neu gestaltetem Form. Nerdy wurde im März entfernt; wenn GPT-5.6 mit zurückkehrenden Persona-Kontrollen ausgeliefert wird, ist das ein starkes Signal dafür, dass das Reward-Problem strukturell behoben und nicht nur überdeckt wurde.

Was wir nicht erwarten sollten:

  • Eine große Architekturänderung. Die Lücke von GPT-5.5 zu GPT-5.6 besteht aus drei Wochen Canary-Signal; das reicht nicht für einen Fundament-Neubau.
  • Eine Preis- oder API-Oberflächenänderung. GPT-5.5 hat sich gerade bei 1,25 $/10 $ pro 1M Token stabilisiert; OpenAI ändert Preise selten bei einer Minor-Version.
  • Ein bevorstehender öffentlicher Launch. Die Polymarket-89%-bis-30.-Juni-Prognose ist plausibel, aber nicht tragend — Canary-Signale können monatelang bestehen, bevor ein öffentlicher Rollout erfolgt.

Was Entwickler heute tun sollten

Drei konkrete Maßnahmen, während GPT-5.6 sich in der Pre-Release-Phase befindet:

  1. Führe den Goblin-Frequenztest an deinen eigenen GPT-5.5-Produktionsoutputs durch. Wenn du >0,5% Goblin/Gremlin/Troll-Erwähnungen in Completions siehst, die diese logisch nicht rechtfertigen, hast du ein messbares Signal dafür, dass das Problem noch durch den System-Prompt-Patch durchsickert. Das ist auch dein Benchmark zur Bewertung von GPT-5.6 am Tag seiner Veröffentlichung.
  2. Bleib beim aktuellen gpt-5.5-Endpoint, nicht bei gpt-5.5-latest. Das Pinnen auf die explizite Version verhindert, dass du lautlos auf GPT-5.6 umgestellt wirst, sobald es befördert wird. Die Kosten des expliziten Versionierens sind nahezu null; die Kosten einer unangekündigten Modelländerung in der Produktion können erheblich sein.
  3. Entscheide deine Evaluierungsmethode bevor GPT-5.6 ausgeliefert wird. Wenn deine Evaluation lautet „stell ihm ein paar Fragen und schau ob die Outputs besser aussehen”, bekommst du Rauschen. Wenn deine Evaluation ein zurückgehaltener Benchmark ist, für den du bereits GPT-5.5-Zahlen hast, bekommst du Signal.

Die kommende Woche

Wenn Polymarket recht hat und ein öffentlicher Release bis zum 30. Juni eintrifft, sind das sechs Wochen Pre-Release-Aktivität zum Verfolgen. Die zu beobachtenden Signale:

  • Weitere Canary-Log-Erscheinungen — sobald ein experimenteller Build im routinemäßigen Eval-Traffic ist, häufen sich Lecks.
  • Ein zweiter OpenAI-Blog-Beitrag zum Reward-Auditing. Die Post-Mortem-Analyse der Goblins vom 30. April las sich wie der erste Teil einer zweiteiligen Geschichte; der zweite Teil ist, was sie dagegen getan haben, und das ist die GPT-5.6-Erzählung.
  • Eine neue System-Card. GPT-5.5’s System-Card und der Deployment-Safety-Hub-Eintrag erschienen gleichzeitig mit dem Modell. Erwarte dasselbe für GPT-5.6.
  • Codex-Updates. Dieselben Logs, die den GPT-5.6-Namen enthüllten, werden die erste Oberfläche sein, auf der ein öffentlicher Versions-Bump erscheint.

Für jetzt: eine Log-Zeile, eine Polymarket-Zahl und ein gut dokumentierter Alignment-Fehler, der erklärt, warum dieser Zyklus schneller voranschreitet als der letzte. Beobachte die Signale, führe die Evaluation durch, pinne den Endpoint.

Quellen: OpenAIs Goblin-Post-Mortem, BigGo Finance über den Codex-Log-Leak, BigGo Finance über die Notfallreaktion, Engadget-Zusammenfassung, gptgoblins.com-Zeitlinie.