GPT Image 2 vs GPT Image 1.5：プロダクションチームのための比較

先週、私のカレンダーに移行の相談が入った。件名は「GPT-image-2に切り替えるべきか？」というものだった。そのチームはGPT-Image-1.5のプロンプトとパラメータを4ヶ月かけて調整し、2つのサービスに統合していたが、新しいモデルのリリースを前に、アップグレードがすべてを再調整するコストに見合うかどうか悩んでいた。通話でYes/Noを答える代わりに、私が答えを出す前に知りたいことをまとめて書くと伝えた。

これがそのまとめだ。GPT Image 2 vs GPT Image 1.5の比較だが、切り口はほとんどの記事より狭い。「どちらが優れているか」ではなく——それはベンチマークの話だ——「1.5でワークフローをすでに運用しているなら、2への移行はそのコストに見合うか」という観点からまとめる。

GPT Image 2 vs GPT Image 1.5 一覧

モデルの位置づけとスナップショットの確認済みの違い

GPT Image 2は2026年4月21日にリリースされた。モデルIDはGPT-image-2で、現在のスナップショットはOpenAI公式モデルページにGPT-image-2-2026-04-21としてピン留めされている。GPT Image 1.5は2025年12月16日にリリースされ、2が置き換えるまで約4ヶ月間、本番デフォルトの座を占めていた。

実際に重要な構造的な変化：

推論。 GPT Image 2は「Thinkingモード」を導入している——モデルはレイアウトを計画し、参照のためにウェブを検索し、レンダリング前に出力を自己チェックできる。1.5にはそのような機能はない。Instantモードも2では利用可能で、レイテンシの面では1.5に近い動作をする。
解像度の上限。 2はネイティブ4K（長辺3840px、2K超はまだ実験的フラグあり）をサポートする。1.5は1536×1024が上限だった。
テキストレンダリング。 これが出力品質において最大の飛躍だ。小さなテキスト、UIラベル、多言語スクリプト（日本語、韓国語、中国語、ヒンディー語、ベンガル語）——2はこれらを処理できる。1.5もすでに良好だったが、密なレイアウトや非ラテン文字では目に見えてずれが生じていた。
カラーベースライン。 1.5で生じていた持続的な暖色系のキャストが2では解消された。ニュートラルな白がようやくニュートラルな白としてレンダリングされる。
透明背景。 これが落とし穴だ。GPT Image 2は透明PNG出力をサポートしない。 1.5はサポートしている。パイプラインがアルファチャンネルのカットアウトに依存している場合、この1機能だけで1.5をスタックに残す理由になる。
1回のコールあたりのバッチ数。 2は1回のコールで最大10枚の画像を返せる（Thinkingモードでは8枚）。1.5は実質的に1回のコールで1枚だった。

確認すべき価格とレート制限の違い

価格は「新しい＝安い」が間違っている唯一の場所で、その逆転は小さすぎて見落としやすい。

OpenAI APIの価格ページによると、GPT-image-2は画像入力トークン100万件あたり8.00ドル、キャッシュ済み画像入力トークン100万件あたり2.00ドル、画像出力トークン100万件あたり30.00ドル、テキスト入力トークン100万件あたり5.00ドルで請求される。Batch APIではこれらがすべて半額になる。

ただし、1枚あたりの計算は一律に動かない。1024×1024の高品質では、GPT-image-2の計算機による見積もりは約0.211ドルとなり、GPT-Image-1.5の0.133ドルと比べると——最も一般的な本番サイズで2は明らかに高くなる。1024×1536のポートレート高品質では逆転し、2は約0.165ドル、1.5は約0.20ドルとなる。The Decoderのリリース報道も同じ逆転を捉えている。新しいモデルがすべてのサイズで安くなると思っていたなら、本番サイズの半分で予想外の請求が来るだろう。

多くのチームが見落とすもう2つの費用項目：

Thinkingモードは基本的な画像コストに加えて推論トークンが課金される。 OpenAIは1枚あたりの明確な金額を公表していない。バッファーを設けておくこと。
参照画像を使った編集はGPT-image-2では常に高忠実度で入力を処理する——input_fidelityがロックされている。これにより、編集が多いワークフローでは1枚あたりのベースラインの2〜3倍になる可能性がある。コストの仕組みについては別記事でカバーしたので、ここでは繰り返さない。

レート制限は「自分のアカウントを確認してください」としておく。OpenAIはGPT-image-2をAPI Organization Verificationの後ろにゲートしており、制限はティアによって異なる。公式モデルページが情報の信頼できる源泉だ。

GPT Image 2で改善されたと思われる点

ワークフローと編集への影響

2の編集エンドポイントは生成と編集を同じコールサーフェスに統合し、マスクベースのインペインティングとアウトペインティングをクリーンに処理する。「生成→確認→調整→再生成」というループを持つワークフローでは、ホップが1つ減る。1.5では編集と反復は使えたが、2ではデザイナーが実際に作業するのに近い形になっている。

多言語ポスターのバッチ処理では、この違いが最も目に見えた。1.5で2文字のエラーがあった韓国語ヘッダーが、2ではクリーンに返ってきた。もう一度試した。まだクリーンだった。その瞬間から、私はアップグレードを真剣に考え始めた。

チームが気にする運用上の潜在的な改善点

「スタックを再調整する価値はあるか」という問いに対して、フラグを立てる価値のある3つのポイント：

テキスト入り画像作業でのリトライ回数の減少。 チームがポスター、パッケージモックアップ、製品ラベル、またはレンダリングされたコピーを含む何かを出荷するなら、2のリトライ率は低い。これが1枚あたりの価格上昇の一部を相殺する。
より多くの出力サイズを1つのモデルで。 ネイティブ4Kは、以前はアップスケーラーにルーティングしていたパイプラインからそのステップを削除する。
カラーニュートラリティ。 わずかだが実際の効果がある。以前に暖色系のキャストを除去するためのカラー補正パスを持っていたなら、それを削除できるかもしれない。

「段階的な変化」と呼ぶのは控えたい——それはマーケティング用語だ。1.5がすでに優れていた側面での測定可能な改善だ。

アップグレードが合理的な場合とそうでない場合

以下のいずれかに当てはまる場合はアップグレードを検討：

テキストが多い、または多言語のビジュアル（看板、インフォグラフィック、パッケージ、UIモックアップ）を出荷している。
1.5でのリトライ率が高く、再生成回数の減少でコスト差が相殺される。
ネイティブで4Kが必要で、アップスケーリングのステップを省きたい。
複雑なコンポジションでレイアウト推論の上限に達していて、ループにThinkingモードを入れたい。

1.5にとどまる場合：

透明PNGが必要な場合。 これは交渉の余地がない。2はサポートしていない。
主要な出力サイズが1024×1024の高品質で、ボリュームが多い場合。価格差が積み重なる。
既存の1.5パイプラインが調整済みで、リトライ率がすでに低い場合。移行コストは早く回収できない。
コストに敏感で低〜中品質で出荷している場合——1.5で十分だ。

OpenAI自身のプロンプティングガイドは、新しい本番ワークフローのデフォルトとしてGPT-image-2を推奨し、移行中の後方互換性とリグレッションテストには1.5を維持することを提案している。これは私がチームに伝えることと一致している：一括で切り替えないこと。ユースケースごとにルーティングすること。

チームのための実践的な移行チェックリスト

移行を決めた場合、私が実行する順序はこれだ。特別なことは何もないが、どのステップをスキップしても移行がロールバックになる原因になる。

現在の1.5コールをユースケースごとに一覧化する。 グループ分けする：純粋なテキスト→画像、参照付き編集、透明背景出力、多言語テキスト、バッチジョブ。各グループには異なる移行の答えがある。
スナップショットをピン留めする。 エイリアスではなくGPT-image-2-2026-04-21を使用すること。エイリアスは前進し続ける；本番コードはそうすべきではない。
プロンプトを再テストする。 1.5用に調整されたプロンプトはほぼそのまま使えるが、Thinkingモードはより明示的なレイアウト指示に応える。1.5でうまく機能していたルーズなプロンプトは、異なるフレーミングを生成するかもしれない。
コールごとではなく、アセットごとのコストを記録する。 リトライを通じた最終アセットコストを追跡すること。編集が多いフローでは、コールごとの価格は誤解を招く。
ルーティングレイヤーを設定する。 透明背景の作業と1024×1024の大ボリュームの作業は1.5に送る。多言語テキスト、4K出力、マスクベースの編集は2に送る。fal.aiの比較ページは、サンプルコールパターンとともに同じルーティングロジックを示しているので、参照したい場合は確認してほしい。
1週間パイロット運用する。 トラフィックを切り替える前に、実際のワークロードで両モデルを並行して実行する。サンプルプロンプトから判断しないこと。

これらの移行で痛い目を見るチームは、モデルによって痛い目を見るのではない。モデルが新しい失敗モードを持っているのに——ロックされた入力忠実度、アルファチャンネルなし、可変の推論コスト——ドロップイン代替品だと思い込んで痛い目を見るのだ。

FAQ

GPT Image 2はGPT Image 1.5より安いですか？

出力サイズと品質によって異なる。1024×1024の高品質では、GPT-image-2の方が高い（見積もり0.211ドル対0.133ドル）。1024×1536の高品質では安くなる（0.165ドル対0.20ドル）。低品質と中品質では差は小さい。トークンレートは公開されているが、1枚あたりの数字は実際のプロンプトと編集に依存する計算機の見積もりだ。

チームは統合フローを変更する必要がありますか？

ほとんどの場合、不要だ。両モデルは同じv1/images/generationsとv1/images/editsエンドポイントを使用する。変わること：最初のGPT-image-2コールの前にAPI Organization Verificationを完了し、コード内でスナップショットをピン留めし、GPT-image-2は常に参照画像を高忠実度で処理するため、編集が多いフローでは請求が高くなることを想定すること。

移行前にチームは何をテストすべきですか？

実際の本番サイズ、品質、編集パターンで1週間のパイロットを実施する。コールごとではなく、リトライを通じた完成アセットのコストを測定する。正直な画像API比較は、生成あたりのステッカー価格だけでなく、リトライ率と編集オーバーヘッドを考慮する必要がある。透明背景の要件がサイレントに壊れていないか確認する——GPT-image-2はサポートしていない。非ラテン文字で出荷する場合は多言語出力を検証する。

GPT Image 1.5にとどまることが合理的なのはいつですか？

3つのケース。透明PNG出力が必要な場合。主要な出力が1024×1024の高品質で、価格差が問題になるほどボリュームが大きい場合。1.5パイプラインが成熟していて、リトライ率がすでに低く、移行リスクが限界的な品質向上を上回る場合。これらは特殊なケースではない——多くの実際のスタックでのデフォルトだ。

まとめ

GPT Image 2は、1.5がすでに優れていたほとんどの側面でより優れたモデルだ——テキストレンダリング、多言語スクリプト、ネイティブ4K、カラーニュートラリティ、レイアウト推論。厳密なコスト改善ではなく、アップグレードで透明背景を失った。これはパイプラインがアルファカットアウトに依存している人にとって実際の減点だ。

「アップグレードすべきか」への正直な答えは：ワークフローがそれらのトレードオフのどの部分に生きているかによる。1024×1536で多言語マーケティングアセットを出荷するチームには簡単なYesだ。透明背景付きの1024×1024のヒーロー画像を大量生産するチームには簡単なNoだ。ほとんどのチームはその中間に位置しており、だからこそ実用的なOpenAI画像モデル比較は「一括で切り替える」ではなく「ユースケースごとにルーティングする」で終わる。

まだ注視しているのは：Thinkingモードの推論コストが本番ボリュームでどのように振る舞うかだ。基本ケースはクリーンに見える。レイアウトが重い作業での可変コストが、まだ十分なデータを持っていない部分だ。それは別の投稿で扱う予定だ。

関連記事：