Panduan API GPT Image 2 untuk Generasi dan Pengeditan

Minggu lalu saya merilis fitur produk kecil yang membutuhkan pembuatan gambar di balik sebuah tombol. Dua hari setelah mulai membangun, saya menyadari bahwa pilihan integrasi yang saya buat di hari pertama akan menentukan seberapa banyak kesulitan yang harus saya tanggung selama enam bulan ke depan. Itulah bagian yang tidak pernah diperingatkan kepada siapa pun soal GPT Image 2 API. Hello-world-nya mudah. Postur produksi-lah yang membuat segalanya jadi menarik.

Saya Dora. Saya menulis catatan kerja setelah mengirim sesuatu, bukan sebelumnya. Inilah yang saya pelajari ketika menyambungkan OpenAI’s gpt-image-2 ke dalam produk nyata, dan apa yang akan saya sampaikan kepada developer lain atau tim rekayasa AI untuk dipertimbangkan sebelum permintaan pertama dikirim.

Yang Perlu Anda Siapkan Sebelum Menggunakan GPT Image 2 API

Akses model, endpoint, dan dokumentasi utama

GPT Image 2 diluncurkan pada 21 April 2026. ID modelnya adalah gpt-image-2. Sebelum panggilan pertama Anda, mungkin Anda perlu menyelesaikan Verifikasi Organisasi API di konsol developer — OpenAI membatasi keluarga GPT Image di baliknya.

Anda memiliki tiga antarmuka untuk dipilih. Image API mengekspos dua endpoint: images.generate untuk text-to-image dan images.edit untuk memodifikasi gambar yang sudah ada dengan prompt dan mask opsional. Antarmuka ketiga adalah Responses API, yang mengekspos pembuatan gambar sebagai alat bawaan untuk alur percakapan atau multi-langkah.

Pilih berdasarkan kebutuhan, bukan kebaruan. Jika produk Anda adalah “pengguna mengetik prompt, mendapatkan gambar,” gunakan Image API. Jika produk Anda adalah “pengguna melakukan percakapan bolak-balik yang kadang menghasilkan gambar,” gunakan Responses API. Mencampurnya hanya karena salah satunya terlihat lebih canggih adalah jebakan pemeliharaan.

Apa yang didukung GPT Image 2 saat ini

Dua hal yang perlu dipahami sejak awal.

Tidak mendukung latar belakang transparan. Permintaan dengan background: "transparent" akan gagal. Jika Anda membutuhkan PNG transparan, arahkan tugas tersebut ke gpt-image-1.5 dan terima bahwa Anda kini memelihara dua jalur model.

Fidelitas input terkunci. Parameter input_fidelity ada pada model lama, tetapi gpt-image-2 selalu memproses input dengan fidelitas tinggi. Hilangkan parameter tersebut atau permintaan Anda akan gagal. Implikasi biayanya: permintaan edit dengan gambar referensi mengonsumsi lebih banyak token input dari yang mungkin Anda perkirakan dari masa gpt-image-1 Anda.

Cara Membuat Gambar dengan GPT Image 2

Struktur permintaan dasar dan pilihan output

Permintaan pembuatan gambar mengambil prompt, ukuran, kualitas, dan format output. Format defaultnya adalah PNG; Anda dapat meminta JPEG atau WebP, dan JPEG lebih cepat dari PNG ketika latensi penting. Ukuran menerima preset atau dimensi kustom, dengan batasan bahwa kedua sisi harus kelipatan 16, sisi tunggal maksimal 3840px, rasio aspek di bawah 3:1, dan total piksel antara 655.360 dan 8.294.400.

Parameter n memungkinkan Anda membuat beberapa gambar dalam satu permintaan. Berguna saat Anda membutuhkan variasi untuk dibandingkan. Kurang berguna saat Anda membayar per token output — yang memang demikian adanya.

Mengelola ukuran, kualitas, dan trade-off alur kerja

Di sinilah kebanyakan tim membuang uang tanpa menyadarinya. GPT Image 2 ditagih per token, bukan per gambar: input gambar $8 per 1 juta token, output gambar $30 per 1 juta token, input teks $5 per 1 juta token. Input yang di-cache lebih murah. Pemrosesan batch memotong harga standar menjadi setengahnya.

Artinya dalam angka praktis: pada 1024x1024, kalkulator OpenAI memperkirakan sekitar $0,006 untuk kualitas rendah, $0,053 untuk menengah, $0,211 untuk tinggi. Ukuran persegi panjang seperti 1024x1536 sedikit lebih murah di $0,005, $0,041, dan $0,165. Itu adalah perkiraan hanya untuk output. Tambahkan token input dan token referensi edit di atasnya.

Jadi pertanyaan trade-off bukan mana kualitas yang terlihat paling bagus. Melainkan pada volume saya, berapa perbedaan biaya antara menengah dan tinggi, dan apakah pengguna saya benar-benar merasakannya. Untuk tampilan thumbnail, kualitas rendah seringkali sudah cukup. Untuk gambar hero yang akan dipandangi pengguna lama, kualitas tinggi sepadan harganya. Saya memilih menengah sebagai default dan mengekspos tinggi sebagai opsi pilihan. Satu keputusan itu mengubah proyeksi tagihan bulanan saya sekitar 4x.

Cara Kerja Pengeditan Gambar

Persyaratan input dan skenario edit yang umum

Endpoint edits menerima gambar, mask opsional, dan prompt yang mendeskripsikan perubahan. Kirim satu gambar untuk mengeditnya. Kirim beberapa gambar untuk menggabungkan subjek, gaya, atau referensi menjadi satu output. Model menangani inpainting dan outpainting, serta mempertahankan area yang tidak ter-mask sambil menerapkan prompt Anda ke bagian lainnya.

Edit umum yang telah saya validasi: penggantian latar belakang pada foto produk, penghapusan objek, transfer gaya antara dua gambar referensi, dan penerjemahan teks di dalam gambar. Klaim konsistensi karakter — karakter yang sama di beberapa adegan yang dihasilkan — berfungsi untuk saya pada subjek sederhana. Hasilnya menjadi kurang andal seiring meningkatnya kompleksitas adegan.

Kesalahan yang meningkatkan biaya atau mengurangi konsistensi

Mengirim input yang terlalu besar. Karena GPT Image 2 memproses setiap input gambar dengan fidelitas tinggi, foto referensi 4K menghabiskan token input yang sama terlepas apakah output Anda adalah thumbnail atau poster. Kecilkan ukuran referensi sesuai kebutuhan tugas yang sebenarnya.

Prompt edit yang samar. “Buatlah lebih baik” menghasilkan perubahan yang tidak terprediksi dan sering kali mengharuskan Anda mencoba ulang. “Ubah topi merah menjadi beludru biru muda” mempertahankan sisa gambar dan biasanya berhasil dalam satu kali percobaan.

n yang tidak dibatasi. Meminta n=4 untuk “melihat opsi” terdengar tidak berbahaya sampai Anda menyadari bahwa Anda baru saja membayar 4x untuk permintaan di mana Anda hanya akan menggunakan satu output.

Memperlakukan edit seperti pembuatan gambar untuk estimasi biaya. Edit seringkali lebih mahal dari pembuatan gambar dengan ukuran output yang sama, karena gambar referensi menambah token input. Rencanakan hal itu dalam model penetapan harga Anda sebelum peluncuran, bukan sesudahnya.

Pertimbangan Produksi untuk Tim

Retry, moderasi, dan penjaga operasional

Tiga hal yang tidak opsional dalam produksi.

Retry dengan exponential backoff. Pembuatan gambar dapat memakan waktu hingga 2 menit untuk prompt yang kompleks, dan Anda akan mencapai batas rate. Panduan OpenAI adalah melakukan retry dengan exponential backoff ditambah jitter — jitter penting karena retry yang tersinkronisasi dari sebuah fleet akan menghantam batas rate yang sama pada waktu yang sama.

Moderasi, dalam dua lapisan. Endpoint pembuatan gambar memiliki parameter moderation bawaan (auto adalah default; low permisif namun tetap difilter). Untuk prompt yang dikirimkan pengguna, jalankan melalui endpoint omni-moderation-latest yang gratis sebelum mengirimnya ke gpt-image-2 — endpoint itu menerima teks dan gambar, dan menghentikan sebagian besar permintaan yang melanggar kebijakan sebelum Anda membayar untuk pembuatannya. Referensi Moderations API memiliki bentuk permintaan yang tepat.

Pencatatan log pada granularitas yang tepat. Catat ID model, ukuran, kualitas, jumlah token prompt, jumlah token output, latensi, ID permintaan, dan estimasi biaya akhir per permintaan. Ketika ada yang salah dalam skala besar, inilah data yang memungkinkan Anda mendiagnosisnya. Ketika ada yang berjalan dengan baik, inilah data yang memungkinkan Anda memutuskan apakah akan memperbesar skala lebih lanjut. Kunci ke snapshot model tertentu dalam produksi daripada alias yang bergerak, agar perilakunya tidak berubah tanpa sepengetahuan Anda. Panduan praktik terbaik produksi mencakup rotasi kunci, pemantauan, dan bagian lain dari lapisan operasional.

Kapan menjaga integrasi langsung sederhana vs menambahkan lapisan platform

Ini adalah pertanyaan yang paling lama saya renungkan.

Integrasi langsung OpenAI adalah jawaban yang tepat ketika produk Anda menggunakan satu model gambar, tim Anda memiliki pengalaman API ops, dan traffic Anda cukup terprediksi sehingga kepemilikan batas rate dan penagihan pihak pertama lebih penting daripada kenyamanan.

Lapisan platform — dan ya, saya bekerja di salah satunya di WaveSpeedAI — mendapatkan tempatnya dalam situasi yang berbeda. Anda merutekan di berbagai model gambar (gpt-image-2 untuk tipografi, model lain untuk PNG transparan, model lainnya lagi untuk video). Anda membutuhkan penetapan harga per panggilan yang flat untuk prediktabilitas anggaran daripada kalkulasi token. Anda menginginkan satu antarmuka integrasi yang bertahan terhadap perubahan provider tanpa Anda harus menulis ulang call site.

Tidak ada jawaban yang universal. Tes jujurnya: hitung berapa banyak provider model yang dipanggil produk Anda hari ini, kalikan dengan berapa banyak yang akan Anda panggil dalam dua belas bulan, dan tanyakan apakah Anda ingin memelihara banyak integrasi itu sendiri.

FAQ

Endpoint mana yang harus digunakan developer untuk GPT Image 2?

Gunakan images.generate untuk text-to-image, images.edit untuk memodifikasi gambar yang sudah ada dengan prompt dan mask opsional, dan alat gambar Responses API ketika pembuatan gambar perlu berada di dalam percakapan multi-turn.

Apakah GPT Image 2 mendukung pengeditan gambar?

Ya. Endpoint images.edit menerima satu atau lebih gambar referensi ditambah prompt, dan mendukung inpainting dan outpainting dengan mask. Semua input gambar diproses dengan fidelitas tinggi secara otomatis.

Apa yang harus dicatat dan dipantau tim dalam produksi?

Minimal: ID snapshot model, ukuran, kualitas, jumlah token input dan output, latensi, ID permintaan, jumlah retry, hasil moderasi, dan estimasi biaya akhir per permintaan. Inilah yang memungkinkan Anda merekonstruksi insiden apa pun dan memperkirakan pengeluaran.

Kapan integrasi API sederhana tidak lagi cukup?

Ketika Anda memanggil lebih dari satu provider gambar, ketika mode kegagalan membutuhkan fallback lintas provider, atau ketika tim keuangan meminta penetapan harga per panggilan yang terprediksi daripada variabilitas berbasis token. Di bawah ambang tersebut, integrasi langsung tetap menjadi pilihan yang lebih bersih.

Bagaimana cara mencegah prompt-injection dan output tidak aman bocor ke produksi?

Jalankan prompt pengguna melalui endpoint moderasi sebelum pembuatan gambar, atur parameter moderation Image API ke auto, catat setiap permintaan yang ditandai, dan ikuti praktik terbaik keamanan OpenAI — termasuk tinjauan manusia untuk antarmuka berisiko tinggi dan red-teaming sebelum peluncuran.

Kesimpulan

GPT Image 2 API tidak sulit untuk dihubungkan. Permintaan pertama membutuhkan waktu satu sore. Keputusan yang penting — default kualitas, pemodelan biaya edit, pelapisan moderasi, perilaku retry, apakah perlu menambahkan lapisan platform — adalah keputusan yang secara diam-diam terakumulasi selama berbulan-bulan setelah Anda merilis. Pilihlah dengan sengaja. Jalankan pilot kecil terlebih dahulu. Sisanya akan mengikuti.