GPT Image 2 vs GPT Image 1.5 für Produktionsteams

Letzte Woche erschien ein Migrationsgespräch in meinem Kalender. Betreff: „Sollten wir auf GPT-image-2 umsteigen?” Das Team hatte vier Monate damit verbracht, Prompts und Parameter für GPT-Image-1.5 zu verfeinern, die Integration über zwei Dienste hinweg durchgeführt und stand nun vor dem neuen Modell-Release und fragte sich, ob das Upgrade den Aufwand des erneuten Feinabstimmens rechtfertigt. Ich sagte ihnen, ich würde aufschreiben, was ich wissen wollte, bevor ich diese Frage beantworte – statt im Gespräch ein einfaches Ja oder Nein zu geben.

Das ist dieser Bericht. Es ist ein GPT Image 2 vs. GPT Image 1.5-Vergleich, aber mit einem engeren Fokus als die meisten: nicht „welches ist besser” – das ist eine Benchmark-Frage –, sondern „wenn du bereits einen Workflow auf 1.5 betreibst, lohnt sich der Wechsel zu 2 angesichts der damit verbundenen Kosten?”

GPT Image 2 vs. GPT Image 1.5 auf einen Blick

Bestätigte Unterschiede in Modellpositionierung und Snapshots

GPT Image 2 wurde am 21. April 2026 veröffentlicht. Die Modell-ID lautet GPT-image-2, und der aktuelle Snapshot ist als GPT-image-2-2026-04-21 auf der offiziellen OpenAI-Modellseite festgelegt. GPT Image 1.5 wurde am 16. Dezember 2025 veröffentlicht und war etwa vier Monate lang der Produktionsstandard, bevor Version 2 ihn ablöste.

Die strukturellen Änderungen, die tatsächlich relevant sind:

Reasoning. GPT Image 2 führt den „Thinking mode” ein – das Modell kann Layouts planen, das Web nach Referenzen durchsuchen und Ausgaben vor dem Rendern selbst prüfen. 1.5 verfügt über nichts davon. Auf Version 2 ist auch der Instant-Modus verfügbar, der sich in der Latenz eher wie 1.5 verhält.
Auflösungsgrenze. 2 unterstützt bis zu nativem 4K (lange Kante 3840 px; über 2K ist noch als experimentell markiert). 1.5 ist auf 1536×1024 begrenzt.
Textdarstellung. Dies ist der größte Qualitätssprung bei der Ausgabe. Kleiner Text, UI-Beschriftungen, mehrsprachige Schriften (Japanisch, Koreanisch, Chinesisch, Hindi, Bengalisch) – Version 2 verarbeitet sie. 1.5 war bereits ordentlich, zeigte aber bei dichten oder nicht-lateinischen Layouts sichtbare Abweichungen.
Farbgrundlage. Der anhaltende Warmstich, den 1.5 produzierte, ist in Version 2 verschwunden. Neutrales Weiß wird endlich als neutrales Weiß dargestellt.
Transparente Hintergründe. Das ist die Falle. GPT Image 2 unterstützt keine transparente PNG-Ausgabe. 1.5 schon. Wenn deine Pipeline auf Alpha-Kanal-Ausschnitte angewiesen ist, reicht dieses einzelne Feature aus, um 1.5 in deinem Stack zu behalten.
Bilder pro Aufruf. Version 2 kann bis zu 10 Bilder pro Aufruf zurückgeben (8 im Thinking-Modus). 1.5 lieferte effektiv eines pro Aufruf.

Preisgestaltung und zu prüfende Rate-Limit-Unterschiede

Die Preisgestaltung ist der einzige Bereich, in dem „neuer = günstiger” falsch ist, und die Umkehrung ist klein genug, um übersehen zu werden.

Laut der OpenAI API-Preisseite berechnet GPT-image-2 $8,00 pro Million Bild-Eingabe-Token, $2,00 pro Million gecachter Bild-Eingabe-Token, $30,00 pro Million Bild-Ausgabe-Token und $5,00 pro Million Text-Eingabe-Token. Die Batch-API halbiert all diese Werte.

Die Kosten pro Bild entwickeln sich jedoch nicht gleichmäßig. Bei 1024×1024 hoher Qualität liegt die Schätzung für GPT-image-2 bei etwa $0,211, gegenüber $0,133 bei GPT-Image-1.5 – Version 2 ist also bei der am häufigsten verwendeten Produktionsgröße deutlich teurer. Bei 1024×1536 Hochformat hoher Qualität kehrt sich das um: Version 2 landet bei etwa $0,165, Version 1.5 bei etwa $0,20. Die Launch-Berichterstattung von The Decoder hat dieselbe Umkehrung festgestellt. Wer davon ausging, dass das neue Modell durchgehend günstiger sein würde, wird bei der Hälfte der Produktionsgrößen überrascht sein.

Zwei weitere Posten, die die meisten Teams übersehen:

Der Thinking-Modus berechnet zusätzliche Reasoning-Token auf die Basisbild-Kosten. OpenAI hat keine saubere Pro-Bild-Zahl dafür veröffentlicht. Plane einen Puffer ein.
Bearbeitungen mit Referenzbildern verarbeiten Eingaben bei GPT-image-2 immer mit hoher Wiedergabetreue – input_fidelity ist gesperrt. Das kann bearbeitungsintensive Workflows auf das 2- bis 3-fache der Basisbild-Kosten treiben. Ich habe die Kostenmechanik in einem separaten Artikel behandelt und wiederhole sie hier nicht.

Rate-Limits lasse ich bei „geh dein Konto prüfen”. OpenAI setzt GPT-image-2 hinter der API-Organisationsverifizierung, und die Limits variieren je nach Stufe. Die offizielle Modellseite ist die maßgebliche Quelle.

Was in GPT Image 2 besser erscheint

Workflow- und Bearbeitungsimplikationen

Der Bearbeitungs-Endpunkt in Version 2 fügt Generierung und Bearbeitung in derselben Aufrufoberfläche zusammen, mit maskenbasiertem Inpainting und Outpainting, das sauber verarbeitet wird. Für Workflows, bei denen die Schleife „generieren, ansehen, anpassen, neu generieren” lautet, bedeutet das einen Hop weniger. Bei 1.5 war das Bearbeiten und Iterieren brauchbar; bei 2 ist es näher daran, wie ein Designer tatsächlich arbeitet.

Für meinen mehrsprachigen Poster-Batch war der Sprung am deutlichsten sichtbar. Ein koreanischer Header, den 1.5 mit zwei Zeichenfehlern darstellte, kam bei Version 2 fehlerfrei zurück. Ich habe es erneut ausgeführt. Immer noch fehlerfrei. Das war der Moment, in dem ich das Upgrade ernsthaft in Betracht zu ziehen begann.

Mögliche betriebliche Verbesserungen, die Teams interessieren

Drei Dinge, die für die Frage „Ist das den Aufwand der Überarbeitung des Stacks wert?” wichtig sind:

Weniger Wiederholungsversuche bei Text-in-Bild-Arbeit. Wenn dein Team Poster, Verpackungsmockups, Produktetiketten oder alles mit gerenderten Texten liefert, ist die Wiederholungsrate bei Version 2 niedriger. Das gleicht einen Teil des höheren Preises pro Bild aus.
Ein Modell für mehr Ausgabegrößen. Natives 4K entfernt einen Schritt aus jeder Pipeline, die zuvor an einen Upscaler weitergeleitet wurde.
Farbneutralität. Marginal, aber real. Wer zuvor einen Farbkorrektur-Schritt hatte, um den Warmstich zu entfernen, kann diesen möglicherweise weglassen.

Ich würde mich davor hüten, das einen „Quantensprung” zu nennen – das ist Marketing-Sprache. Es ist eine messbare Verbesserung in den Bereichen, in denen 1.5 bereits solide war.

Wann ein Upgrade sinnvoll ist und wann nicht

Upgrade, wenn eines der Folgenden auf dich zutrifft:

Du lieferst textintensive oder mehrsprachige Visuals (Beschilderung, Infografiken, Verpackung, UI-Mockups).
Deine Wiederholungsrate bei 1.5 ist hoch genug, dass die Kostendifferenz durch weniger Neugenerierungen ausgeglichen wird.
Du benötigst nativ 4K und möchtest den Upscaling-Schritt weglassen.
Du stößt bei komplexen Kompositionen an die Grenzen des Layout-Reasonings und möchtest den Thinking-Modus in der Schleife haben.

Bleib bei 1.5, wenn:

Du transparente PNGs benötigst. Das ist nicht verhandelbar. Version 2 unterstützt das nicht.
Deine dominante Ausgabegröße 1024×1024 hoher Qualität ist und dein Volumen hoch ist. Das Preisdelta summiert sich.
Deine bestehende 1.5-Pipeline gut eingestellt ist und deine Wiederholungsrate bereits niedrig ist. Die Migrationskosten amortisieren sich nicht schnell.
Du kostenempfindlich bist und bei niedriger oder mittlerer Qualität lieferst – 1.5 ist hier in Ordnung.

OpenAIs eigener Prompting-Leitfaden empfiehlt GPT-image-2 als Standard für neue Produktionsworkflows und schlägt vor, 1.5 für Abwärtskompatibilität und Regressionstests während der Migration zu behalten. Das entspricht dem, was ich einem Team sagen würde: Kein vollständiger Umstieg auf einmal. Routing nach Anwendungsfall.

Eine praktische Migrations-Checkliste für Teams

Wenn du dich zur Migration entschließt, würde ich es in dieser Reihenfolge angehen. Nichts davon ist exotisch – aber jeden Schritt zu überspringen ist der Weg, wie Migrationen zu Rollbacks werden.

Inventarisiere deine aktuellen 1.5-Aufrufe nach Anwendungsfall. Gruppiere sie: reines Text-zu-Bild, Bearbeitungen mit Referenzen, transparente Hintergrundausgaben, mehrsprachiger Text, Batch-Jobs. Jede Gruppe hat eine andere Migrationsantwort.
Fixiere den Snapshot. Verwende GPT-image-2-2026-04-21, nicht den Alias. Aliasse rollen vorwärts; Produktionscode sollte das nicht.
Teste Prompts erneut. Für 1.5 optimierte Prompts werden größtenteils übertragbar sein, aber der Thinking-Modus belohnt explizitere Layout-Anweisungen. Lockere Prompts, die bei 1.5 funktionierten, können bei Version 2 unterschiedliche Framing-Ergebnisse liefern.
Protokolliere Kosten pro Asset, nicht pro Aufruf. Verfolge die Endkosten pro Asset über Wiederholungsversuche hinweg. Der Preis pro Aufruf ist bei bearbeitungsintensiven Flows irreführend.
Richte eine Routing-Ebene ein. Sende Arbeiten mit transparentem Hintergrund und 1024×1024-Hochvolumenarbeit durch 1.5. Sende mehrsprachigen Text, 4K-Ausgaben und maskenbasierte Bearbeitungen durch Version 2. Die fal.ai-Vergleichsseite legt dieselbe Routing-Logik mit Beispiel-Aufrufmustern dar, falls du eins vor dir haben möchtest.
Pilotiere eine Woche lang. Lasse beide Modelle parallel auf echter Arbeitslast laufen, bevor du den Traffic umstellst. Entscheide nicht anhand von Beispiel-Prompts.

Die Teams, die bei diesen Migrationen scheitern, scheitern nicht am Modell. Sie scheitern daran, dass sie annehmen, das Modell sei ein Drop-in-Ersatz, obwohl es neue Fehlermodi hat – gesperrte Eingabetreue, kein Alpha-Kanal, variable Reasoning-Kosten.

FAQ

Ist GPT Image 2 günstiger als GPT Image 1.5?

Das hängt von Ausgabegröße und Qualität ab. Bei 1024×1024 hoher Qualität ist GPT-image-2 teurer (Schätzung $0,211 vs. $0,133). Bei 1024×1536 hoher Qualität ist es günstiger ($0,165 vs. $0,20). Niedrige und mittlere Qualität unterscheiden sich um kleinere Beträge. Die Token-Raten sind veröffentlicht; die Pro-Bild-Zahlen sind Schätzungen des Rechners, die von deinen tatsächlichen Prompts und Bearbeitungen abhängen.

Müssen Teams ihren Integrationsablauf ändern?

Größtenteils nein. Beide Modelle verwenden dieselben v1/images/generations- und v1/images/edits-Endpunkte. Was sich ändert: Schließe die API-Organisationsverifizierung vor dem ersten GPT-image-2-Aufruf ab, fixiere den Snapshot im Code und erwarte, dass bearbeitungsintensive Flows höhere Kosten verursachen, weil GPT-image-2 Referenzbilder immer mit hoher Wiedergabetreue verarbeitet.

Was sollten Teams vor der Migration testen?

Führe eine einwöchige Pilotphase mit deiner echten Produktionsgröße, Qualität und deinem Bearbeitungsmuster durch. Miss die Kosten pro fertigem Asset über Wiederholungsversuche hinweg, nicht pro Aufruf. Jeder ehrliche Bild-API-Vergleich muss Wiederholungsrate und Bearbeitungsaufwand berücksichtigen, nicht nur den Listenpreis pro Generierung. Prüfe, ob eine Anforderung an transparente Hintergründe nicht stillschweigend gebrochen wird – GPT-image-2 unterstützt das nicht. Verifiziere mehrsprachige Ausgaben, wenn du in nicht-lateinischen Schriften lieferst.

Wann ist es sinnvoll, bei GPT Image 1.5 zu bleiben?

Drei Fälle. Du benötigst transparente PNG-Ausgabe. Deine dominante Ausgabe ist 1024×1024 hoher Qualität und dein Volumen ist groß genug, dass das Preisdelta eine Rolle spielt. Deine 1.5-Pipeline ist ausgereift, deine Wiederholungsrate ist bereits niedrig, und das Migrationsrisiko überwiegt den marginalen Qualitätsgewinn. Nichts davon ist exotisch – das sind die Standardbedingungen für viele funktionierende Stacks.

Fazit

GPT Image 2 ist das bessere Modell in den meisten Dimensionen, in denen 1.5 bereits gut war – Textdarstellung, mehrsprachige Schriften, natives 4K, Farbneutralität, Layout-Reasoning. Es ist keine strikte Kostenverbesserung, und es hat transparente Hintergründe beim Upgrade aufgegeben, was für jeden, dessen Pipeline auf Alpha-Ausschnitte angewiesen ist, ein echter Rückschritt ist.

Die ehrliche Antwort auf „sollten wir upgraden” lautet: Es hängt davon ab, in welche dieser Abwägungen dein Workflow fällt. Ein Team, das mehrsprachige Marketing-Assets bei 1024×1536 liefert, hat ein klares Ja. Ein Team, das 1024×1024-Hero-Images mit transparenten Hintergründen produziert, hat ein klares Nein. Die meisten Teams liegen irgendwo dazwischen, weshalb jeder praktische OpenAI-Bildmodell-Vergleich mit „Routing nach Anwendungsfall” endet statt mit „vollständigem Umstieg”.

Der Teil, den ich noch beobachte: wie sich die Reasoning-Kosten des Thinking-Modus bei Produktionsvolumen verhalten. Der Basisfall sieht sauber aus. Die variablen Kosten bei layout-intensiver Arbeit sind der Teil, über den ich noch nicht genügend Daten habe. Das ist ein separater Beitrag, sobald ich sie habe.

Frühere Beiträge: