GPT-5.4 vs GPT-5.3: Apa yang Mungkin Benar-Benar Berubah

Hai, saya Dora. Saya mendapati diri saya sedang mengawasi loop agen yang berjalan lama. Tidak ada yang dramatis, hanya perasaan lambat dan gelisah ketika sebuah model terus meminta satu panggilan tool lagi, lalu satu lagi. Itu mengingatkan saya betapa banyak hari-hari saya yang hidup di tepi: jeda, percobaan ulang, momen “apakah ia benar-benar membaca dokumen itu?”

Jadi saya habiskan sore hari untuk mengulas kembali catatan saya tentang GPT-5.3, lalu sekilas menelusuri obrolan awal seputar GPT-5.4. Beberapa diskusi bocoran awal seputar arsitektur model dan petunjuk latensi dirangkum dalam uraian tentang bocoran GPT-5.4. Bukan untuk mengejar hal besar berikutnya, melainkan untuk menjawab pertanyaan yang lebih kecil: apakah semua ini akan mengurangi bagian-bagian yang gelisah dalam alur kerja saya? Ini adalah catatan harian saya tentang GPT 5.4 vs GPT 5.3, dengan apa yang sudah saya ukur, apa yang tampak kredibel, dan di mana saya masih belum yakin.

Kemampuan GPT-5.3: Baseline Saat Ini

Performa penalaran dan penggunaan tool

Saya menggunakan GPT-5.3 sejak pertengahan Januari 2026 untuk tiga pekerjaan tetap: merangkum riset produk, menyortir thread dukungan, dan membuat kerangka skrip kecil. Singkatnya: ia menangani penalaran bertahap dengan baik jika saya memberikan struktur yang bersih. Ketika saya eksplisit tentang peran, status, dan kondisi penghentian, ia mengikuti tanpa mengembara.

Untuk penggunaan tool, pemanggilan fungsi sudah stabil. Saya mengandalkan pola pemanggilan fungsi OpenAI dan skema tool standar, tidak ada kejutan di sana. Dengan tool yang terdefinisi dengan baik (pencarian, pengambilan, pencarian vektor sederhana), 5.3 menjaga panggilan tetap rapi. Dalam satu sesi triase 20 email, rata-rata 1,7 panggilan tool per thread, turun dari 2,4 dengan pengaturan lama saya. Itu memangkas celah kecil “apa sekarang?”. Tangkapannya: jika deskripsi tool saya menjadi samar, ia mencoba mengompensasi dengan lebih banyak panggilan.

Yang paling saya perhatikan adalah toleransinya terhadap konteks parsial. Jika saya hanya meneruskan potongan yang relevan dan ringkasan status yang ringkas, ia tetap beralasan dengan baik. Tetapi jika saya memasukkan banyak catatan yang kurang berkaitan, ia mulai ragu-ragu.

Dukungan coding dan alur kerja agen

Untuk kode, 5.3 stabil untuk refaktor kecil hingga menengah. Ia pandai menghasilkan diff dengan penjelasan yang jelas dan dapat menjaga gaya yang konsisten jika saya memberikan panduan gaya singkat sebagai seed. Di mana ia melambat adalah perubahan lintas file yang membutuhkan kesadaran ketergantungan yang ketat. Saya biasanya beralih ke pola dua tahap: tahap pertama memintanya menguraikan pengeditannya; tahap kedua menerapkannya file demi file. Itu mencegahnya menyentuh hal-hal yang tidak seharusnya secara terlalu percaya diri.

Dalam alur kerja agen, 5.3 berperilaku paling baik ketika saya membatasi rekursi dan mencatat setiap keputusan. Saya telah menetapkan loop tiga langkah: rencanakan → panggil tool → refleksikan. Lebih dari itu dan ia menjadi terlalu banyak bicara. Saya juga mendorongnya untuk menghasilkan JSON kompak untuk status, yang mengurangi kesalahan penguraian. Tidak ada yang ajaib di sini, ini hanya pagar pembatas yang membuat loop menjadi kurang rewel.

Keterbatasan yang diketahui

Ia bisa menangani instruksi dua kali ketika saya mencampur aturan sistem dengan tugas pengguna yang panjang: saya sudah belajar untuk mengulang batasan kunci di bagian bawah prompt.
Terkadang ia bersikeras untuk merangkum kembali input yang sudah saya rangkum, yang membuang token dan waktu.
Untuk tugas visi (tangkapan layar, mockup UI), ia cukup baik dalam memberi label dan mendeskripsikan, tetapi melewatkan teks kecil dan logika tata letak yang halus. Saya pernah beberapa kali mengalaminya mengira toggle sebagai tombol.
Di bawah tekanan (token ketat), ia lebih memilih generalisasi yang aman daripada tepian yang presisi. Saya melihat ini ketika mengevaluasi log kesalahan: ia menyebutkan kemungkinan penyebab, tetapi ragu untuk berkomitmen tanpa konteks lebih lanjut.

Itulah gambaran kerja saya tentang 5.3: dapat diandalkan ketika saya eksplisit, sedikit cemas ketika tidak.

Apa yang Disarankan Sinyal GPT-5.4 Telah Berubah

Saya belum memiliki akses langsung ke 5.4 per 5 Maret 2026. Berikut ini berasal dari thread bocoran awal, beberapa catatan pengembang yang kredibel di forum privat, dan pola yang sudah saya pelajari untuk diperhatikan ketika sebuah keluarga model melangkah maju sedikit. Saya akan menandai setiap poin sebagai ramah-observasi, berbasis-bocoran, atau spekulatif.

Kecepatan inferensi, implikasi mode cepat

Berbasis-bocoran: beberapa akun menyebutkan “mode cepat” atau tier latensi rendah untuk penalaran bentuk pendek. Jika benar, itu kurang penting untuk throughput mentah dan lebih penting untuk tempo agen. Pengurangan 20–30% dalam latensi token pertama mengubah nuansa loop dari lamban menjadi responsif. Tolok ukur yang membandingkan GPT-5 dengan model seperti DeepSeek dan GLM menunjukkan betapa besar latensi dan biaya dapat membentuk alur kerja pengembang dalam praktik. Pada pengaturan 5.3 saya, latensi token pertama berkisar sekitar 600–900 ms pada prompt rata-rata: memangkas bahkan 150–200 ms saja akan membuat rantai tool menjadi kurang putus-putus. Saya memperkirakan mode cepat ini akan mengorbankan beberapa kedalaman, berguna untuk perutean, klasifikasi, atau validasi cepat sebelum tahap yang lebih berat.

Ramah-observasi: jika 5.4 benar-benar menambahkan tier kecepatan, saya kemungkinan akan membagi alur kerja: klasifikasi cepat → rute → tahap mendalam. Itu sudah merupakan pola umum: kecepatannya hanya membuatnya lebih mulus.

Peningkatan penanganan input visi

Berbasis-bocoran: OCR teks kecil yang lebih baik dan penalaran tata letak yang lebih stabil. Petunjuknya mengarah pada pengenalan yang lebih baik untuk teks UI berkontras rendah dan logika kotak pembatas yang lebih halus. Jika akurat, ini akan memperbaiki dua titik gesekan 5.3 saya: salinan kecil dalam tangkapan layar dan membedakan kontrol UI.

Ramah-observasi: ini akan menghemat bolak-balik yang saya lakukan saat memvalidasi wireframe antarmuka. Saat ini, saya menjalankan tangkapan layar melalui langkah OCR terpisah ketika 5.3 tidak bisa. Jika 5.4 mengurangi detour tersebut, saya akan menghapus satu tool dari rantai.

Potensi perluasan jendela konteks

Spekulatif: sedikit peningkatan dalam konteks yang dapat digunakan atau retensi yang lebih baik di seluruh prompt panjang. Saya tidak bermaksud angka headline: saya bermaksud recall praktis di bagian belakang percakapan panjang. Jika 5.4 mempertahankan batasan tugas lebih ketat tanpa saya harus menyatakannya kembali, itu mengubah cara saya menyusun status. Lebih sedikit pengingat, lebih sedikit pajak token. Jika hanya peningkatan jendela mentah tanpa recall yang lebih baik, manfaatnya lebih kecil.

Saya akan mempercayai ini ketika saya melihat lebih sedikit “interpretasi ulang” di akhir sesi. Hingga saat itu, saya berhati-hati.

Tabel Perbandingan Berdampingan

Saya lebih suka memisahkan apa yang sudah saya ukur dari apa yang hanya saya dengar. Tiga tabel singkat, lensa yang sama setiap kali.

Kemampuan yang dikonfirmasi

Area	GPT-5.3	GPT-5.4
Penggunaan tool / pemanggilan fungsi	Stabil dengan skema yang jelas: 1–3 panggilan per tugas adalah tipikal dalam sesi saya	Belum dikonfirmasi
Penalaran di bawah tekanan token	Menurun menjadi generalisasi: mendapat manfaat dari batasan yang diulang	Belum dikonfirmasi
Visi (tangkapan layar UI)	Melewatkan teks kecil: mengacaukan beberapa kontrol	Belum dikonfirmasi
Perilaku loop agen	Bekerja paling baik dengan loop 2–3 langkah dan kondisi berhenti yang eksplisit	Belum dikonfirmasi
Coding lintas file	Membutuhkan strategi dua tahap untuk keamanan: penjelasan diff yang baik	Belum dikonfirmasi

Referensi: Saya mengikuti pola dalam dokumen pemanggilan fungsi OpenAI dan definisi tool dalam referensi API. Jika penasaran, dokumen resmi adalah jangkar yang baik: OpenAI API: function calling dan penggunaan tool.

Sinyal berbasis bocoran

Area	GPT-5.3	GPT-5.4 (berbasis bocoran)
Tier kecepatan inferensi	Mode standar saja	Menambahkan tier yang lebih cepat dan lebih dangkal untuk respons latensi rendah
OCR visi	Memadai, kesulitan dengan teks kecil/berkontras rendah	Akurasi teks kecil dan penanganan tata letak yang lebih baik
Biaya per token	Tarif yang dipublikasikan saat ini	Sedikit pengurangan pada tier cepat (belum terverifikasi)

Kualitas sumber: beragam. Beberapa detail sejalan dengan pola dari rilis sebelumnya: tidak ada yang dikonfirmasi.

Area	GPT-5.3	GPT-5.4 (spekulatif)
Retensi konteks	Membutuhkan pengingat batasan yang sering	Mempertahankan batasan lebih lama dengan lebih sedikit pengulangan
Efisiensi penggunaan tool	Terkadang terlalu banyak memanggil ketika skema samar	Parsimoni panggilan yang lebih baik dengan prompt serupa
Perencanaan jangka panjang	Ragu untuk berkomitmen melewati 3–4 langkah	Perencanaan bertahap yang sedikit lebih stabil

Peningkatan spekulatif

Mengapa Perubahan Ini Penting bagi Pengembang

Dampak pada desain loop agen

Jika “mode cepat” ada, saya akan mendesain ulang loop untuk memuat kepastian murah di depan. Klasifikasi cepat, lalu bercabang: tugas sederhana diselesaikan dalam mode cepat; tugas kompleks dieskalasi ke model kedalaman penuh. Itu saja dapat memangkas pengawasan manusia. Dalam tumpukan 5.3 saya saat ini, saya menghabiskan energi untuk mencegah loop dari berputar. Tier kecepatan dapat mengalihkan energi itu ke dalam perutean yang lebih jelas.

Penanganan visi yang lebih baik akan menyederhanakan pipeline analisis UI saya. Saat ini, saya menggunakan rantai tiga langkah untuk mockup: keterangan dasar → tahap OCR → pemeriksaan tata letak. Jika 5.4 menggabungkan dua yang pertama, saya akan pensiun dari lompatan OCR dan hanya menyimpan validator tata letak. Itu satu tool yang lebih sedikit untuk dipelihara, dan lebih sedikit tempat untuk kesalahan.

Jika retensi konteks meningkat, saya akan mengurangi irama pengingat dalam prompt. Saya akan menyimpan blok aturan kecil yang tidak dapat diubah dan mempercayai model untuk membawanya lebih jauh dalam sesi. Lebih sedikit perancahan, lebih sedikit token, hasil yang sama.

Pertimbangan biaya-kinerja

Tier kecepatan biasanya datang dengan pajak kualitas. Saya memperlakukan itu sebagai fitur, bukan bug. Gunakan untuk:

perutean dan validasi ringan (apakah kita menguraikan tanggal, ya/tidak?),
keluar awal (apakah ini FAQ yang diketahui?),
pemeriksaan kesehatan pada konteks yang diambil (apakah potongan ini bahkan menyebutkan entitas tersebut?).

Untuk segalanya, penalaran yang membentuk output, Anda membayar untuk kedalaman. Jika tier cepat 5.4 lebih murah per token, saya memperkirakan penghematan kecil di seluruh tugas volume tinggi, tetapi keuntungan nyata adalah latensi. Biaya per tugas mungkin turun sedikit; kecepatan yang dirasakan mungkin meningkat banyak.

Jika tidak ada yang berubah pada harga, saya tetap akan membagi pekerjaan. Bahkan dengan 5.3, menggunakan model yang lebih kecil/lebih murah untuk perutean sering kali menguntungkan. Tier cepat asli hanya akan mengurangi kode perekat.

Pertimbangan migrasi

Mulai dengan uji bayangan. Jalankan prompt yang sama melalui 5.3 dan 5.4 (ketika tersedia) dan bedakan hasilnya. Jangan ganti jalur langsung sampai Anda telah melihat beberapa lusin kasus tepi.
Jaga skema tool Anda tetap ketat. Deskripsi yang samar menggelembungkan jumlah panggilan pada 5.3; kemungkinan akan melakukan hal yang sama pada 5.4, cepat atau tidak.
Catat tekanan token. Banyak “regresi” hanyalah prompt yang lebih ketat. Lacak penggunaan jendela dan pangkas boilerplate.
Versi prompt. Saya menyimpan changelog kecil dalam pesan sistem saya. Jika 5.4 berperilaku lebih baik dengan pengingat yang lebih ramping, Anda ingin jejak kertas tentang apa yang Anda hapus.
Perhatikan visi secara diam-diam. Jika Anda mengandalkan tangkapan layar, uji dengan teks berkontras rendah, UI yang padat, dan font yang tidak biasa. Satu set uji yang baik mengalahkan selusin anekdot.

Jika Anda adalah tim kecil, langkah paling aman adalah bertahap: percontohan alur kerja yang sempit (perutean, triase), lalu perluas.

Untuk pembangun solo, saya akan mencoba satu perubahan kebiasaan: tambahkan gerbang “cepat atau penuh?” di bagian atas rantai prompt Anda. Bahkan jika 5.4 tidak mengirimkan mode cepat, disiplin ini membantu.

Catatan Penting (perbandingan berdasarkan sinyal bocoran)

Semua hal tentang GPT-5.4 di sini bersifat tidak langsung sampai ada rilis resmi atau dokumen. Bagian 5.4 adalah campuran sinyal berbasis bocoran dan tebakan yang hati-hati dari pembaruan sebelumnya. Jika dan ketika 5.4 nyata, saya akan menjalankan tugas yang sama dan memperbarui ini. Untuk saat ini, anggap ini sebagai peta yang digambar dengan pensil, bukan tinta.

Satu pemikiran terakhir: **bahkan peningkatan kecepatan kecil pun dapat mengendurkan alur kerja. **Jika itu semua yang dibawa 5.4, saya akan menerimanya.