GLM-5 vs DeepSeek V3 vs GPT-5: Kecepatan & Biaya untuk Developer

Hei, saya Dora. Yang mendorong saya sebenarnya hal kecil: sebuah pekerjaan merangkum yang seharusnya selesai dalam lima menit malah molor jadi lima belas menit karena respons pertama macet di awal. Bukan sepenuhnya salah modelnya, ada streaming token, beban server, dan sebagainya, tapi ini mengingatkan saya bahwa “akurasi” bukan satu-satunya hal yang bisa merusak hari.

Maka saya duduk dengan pertanyaan yang terus mengusik saya: dalam dunia nyata, bagaimana rasanya menggunakan GLM-5, DeepSeek, dan GPT-5? Bukan dalam grafik, tapi dalam waktu respons, biaya yang tidak mengejutkan, dan keandalan ketika sebuah tugas punya tiga atau empat bagian yang bergerak. Ini adalah usaha saya untuk menuliskannya dengan tenang, dengan catatan bahwa stack Anda, wilayah Anda, dan toleransi Anda terhadap kasus-kasus tepi akan mengubah gambarannya.

Saya akan tetap membumi: GLM-5 vs DeepSeek vs GPT-5, melampaui hype dan tangkapan layar benchmark yang biasa.

Apa yang perlu dibandingkan di luar skor benchmark

Benchmark adalah pemeriksaan kewarasan, bukan tujuan akhir. Pengujian yang saya perhatikan tidaklah glamor:

Latensi yang penting: time-to-first-token (TTFT) dan throughput yang stabil. Model yang “berpikir lebih lama” bukan masalah: model yang diam sebelum mulai seringkali justru bermasalah.
Biaya yang sesuai dengan bentuk pekerjaan: per juta token itu bagus, tapi pemborosan context window, percobaan ulang, dan tool-call bisa menggandakan pengeluaran nyata.
Mode kegagalan: bagaimana model berperilaku ketika prompt sedikit meleset, alat habis waktu, atau input lebih panjang dari biasanya.
Permukaan kontrol: temperature yang benar-benar menggerakkan variasi, system prompt yang bertahan, function-calling yang tidak goyah pada tepi skema.
Degradasi di bawah beban: pengujian ketiga dalam satu menit, atau pekerjaan keseratus dalam sebuah batch.

Untuk GLM-5, DeepSeek, dan GPT-5, saya mencari kompetensi yang tenang: model-model yang tidak mengejutkan saya dengan cara yang salah. Saya juga mencatat di mana masing-masing melengkung, karena lebih mudah merancang di sekitar kelengkungan yang diketahui daripada di sekitar janji pemasaran.

Kecepatan inferensi (TTFT + throughput)

Saya peduli pada dua momen: ketika token pertama muncul, dan seberapa cepat sisanya mengikuti.

TTFT: Ini memberitahu saya apakah model mulai terlibat atau membuat saya menatap layar kosong. Dalam alat interaktif (penyusunan draf, obrolan dukungan), TTFT yang cepat terasa seperti keramahan.
Throughput: Setelah dimulai, apakah ia bisa menjaga kecepatan yang stabil pada output panjang tanpa gangguan?

Yang saya amati dalam praktik (Februari 2026, endpoint campuran AS/EU):

GLM-5: TTFT yang konsisten cepat pada prompt pendek. Pada konteks panjang (lebih dari ~30–40k token), awalnya sedikit lebih lambat tapi streaming-nya stabil. Terasa “tanpa drama” untuk penyusunan draf dan pengeditan kode. Jika Anda menginginkan angka mentah dan data latensi berdampingan, saya menemukan breakdown benchmark kecepatan inferensi GLM-5 ini membantu sebagai konteks.
DeepSeek (khususnya varian R1/V3): TTFT yang mengejutkan cepatnya, bahkan di bawah beban batch ringan. Sesekali ada jeda mikro di tengah streaming pada generasi yang sangat panjang, tapi pemulihannya mulus.
GPT-5: Mulai lebih lambat dari yang Anda harapkan di beberapa endpoint, lalu mengimbanginya dengan streaming yang sangat stabil. Ketika tool-calling digunakan, overhead handoff-nya rendah, yang membantu alur multi-langkah.

Catatan yang terus saya ulang: wilayah dan gateway sama pentingnya dengan model mentah. Jika Anda routing melalui agregator, aktifkan streaming dan turunkan max_tokens pada pengujian eksplorasi. Ini memangkas waktu mati tanpa mengubah kualitas.

Biaya per juta token

Harga resmi adalah titik awal, bukan tagihan yang akhirnya Anda bayar. Tiga pengungkit mengubah biaya nyata saya lebih dari yang saya perkirakan:

Pemborosan konteks: Mengirim preamble sistem dan skema alat yang sama di setiap panggilan menumpuk. Caching atau pemangkasan skema terbayar dengan cepat.
Kebijakan percobaan ulang: Satu percobaan ulang agresif pada batas rate dapat diam-diam menggandakan pengeluaran selama jendela sibuk.
Disiplin panjang output: Menetapkan max_tokens pada batas yang masuk akal (dan membiarkan model berhenti pada function call) memberi dampak lebih besar dari kode diskon manapun.

Pada bulan ini:

DeepSeek telah mendorong harga yang agresif, terutama untuk varian penalaran. Ramah untuk workflow batch, asalkan Anda memperhatikan variasi gaya yang sesekali terjadi.
GLM-5 berada di posisi tengah yang pragmatis. Bukan yang termurah, tapi dapat diprediksi, dan keterpredikasian punya nilai ketika bagian keuangan meminta prakiraan.
Harga GPT-5 masih bergerak secara publik. Dalam praktiknya, saya memodelkan anggaran dengan rentang GPT-4.1/4o sebagai batas bawah dan menambahkan ruang untuk tier penalaran GPT-5. Jika Anda membutuhkan batas yang pasti hari ini, inilah yang perlu diuji tekanannya.

Jika Anda membandingkan secara setara, ukurlah “biaya efektif per output yang berguna,” bukan token. Model yang 1,2× lebih mahal tapi memangkas revisi hingga setengahnya menang dalam buku saya.

Kualitas penalaran dan pengkodean

Saya tidak menjalankan papan peringkat. Saya menjalankan pekerjaan yang benar-benar saya lakukan: penulisan terstruktur, utilitas kode kecil, dan alur agen multi-alat. Dua sudut pandang yang paling penting.

Akurasi tugas tunggal

Pada tugas terfokus (misalnya, “ubah JSON ini menjadi typed interface,” “rangkum catatan rapat ini dengan action item”), GPT-5 terasa paling rapi. Ia membutuhkan lebih sedikit dorongan untuk mengikuti format sempit, dan function-calling tetap dalam skema dengan lebih andal.

DeepSeek berkinerja baik pada langkah-langkah penalaran yang bisa dijabarkannya. Saya memperhatikan sedikit kecenderungan untuk terlalu banyak menguraikan, yang baik untuk draf, tapi kurang ideal untuk output yang ketat kecuali saya membatasi max_tokens dan menentukan keringkasan. GLM-5 mendarat di tengah yang tenang: lebih sedikit hiasan, kepatuhan yang stabil, dan pengeditan kode yang solid ketika diff-nya kecil. Pada cold start dengan prompt ambigu, ia terkadang bermain lebih aman dari yang saya inginkan, tapi system prompt yang lebih ketat memperbaikinya.

Keandalan agen multi-langkah

Ketika alat mulai berperan, pencarian, scraping, pembacaan database, pertanyaannya bergeser dari “Apakah jawabannya bagus?” menjadi “Apakah loop-nya bertahan?”

GPT-5: Kuat dalam merencanakan rantai pendek dan memulihkan diri ketika alat habis waktu. Ia meminta kembali field yang hilang daripada menebak. Hal kecil, penyelamat kewarasan yang besar.
DeepSeek: Rantai yang ringkas dan efisien. Sesekali ia mengambil belokan yang salah dengan percaya diri ketika dua alat tumpang tindih dalam kemampuan. Menambahkan aturan pemilihan alat yang eksplisit dalam system prompt membantu.
GLM-5: Sangat stabil ketika skema terdefinisi dengan baik. Jika alat mengembalikan bentuk yang tidak terduga, ia berhati-hati dan meminta klarifikasi. Saya lebih suka itu daripada halusinasi diam-diam.

Ini tidak menghemat waktu saya pada awalnya, bahkan, memasang pagar pengaman membutuhkan satu sore ekstra, tapi setelah beberapa pengujian, saya menyadarinya mengurangi upaya mental. Lebih sedikit kegagalan misterius. Lebih sedikit momen “mengapa ia melakukan itu?”

Model terbaik berdasarkan jenis beban kerja

Ini bukan upacara penobatan. Ini adalah latihan pencocokan. Berikut di mana masing-masing paling cocok dalam seminggu saya.

Aplikasi real-time → ?

Jika orang menunggu di sisi lain layar, saya condong ke TTFT yang cepat dan gaya yang dapat diprediksi.

Obrolan ringan, penyusunan draf, sidebar dukungan: GLM-5 atau DeepSeek. Keduanya terasa gesit. DeepSeek sedikit lebih cepat ke token pertama: GLM-5 cenderung menjaga konsistensi nada antar sesi.
Asisten dengan banyak alat: GPT-5. Perencanaan dan keteguhan skema mengurangi stagnasi kasus tepi. Jika anggaran terbatas, buat prototipe dengan DeepSeek dan beralih ke GPT-5 untuk endpoint yang paling penting.

Pemrosesan batch → ?

Untuk pekerjaan offline besar (ratusan hingga ribuan item):

DeepSeek menang dalam efisiensi biaya jika Anda bisa menoleransi sedikit penyimpangan gaya. Tambahkan skema output yang ketat dan pemeriksaan diff.
GLM-5 adalah default yang stabil ketika Anda peduli pada lebih sedikit pencilan dan Anda tidak masalah membayar sedikit lebih untuk keseragaman.
GPT-5 berlebihan kecuali tugas tersebut benar-benar membutuhkan penalaran lebih dalam atau pengambilan multi-hop per item. Ketika membutuhkannya, tingkat pengulangan turun cukup untuk membenarkannya.

Pipeline multimodal → ?

Untuk alur gambar + teks atau audio + teks, lem penghubungnya lebih penting dari brosur.

GPT-5: Handoff paling mulus antara modalitas dan alat dalam pengujian saya. Jika pipeline Anda melompat antara ekstraksi, penalaran, dan generasi, kehalusan ini terbayar.
DeepSeek: Cepat dan kompeten. Untuk OCR + peringkasan atau caption + tag, ia menjaga latensi tetap rendah.
GLM-5: Andal pada tugas gambar-ke-teks yang terstruktur. Jika konsistensi mengalahkan gaya (bayangkan parsing faktur atau pembersihan data produk), saya meraihnya lebih dahulu.

Satu catatan desain: streaming hasil antara ke log Anda. Itu adalah cara termudah untuk mendeteksi ketidakcocokan modalitas sebelum Anda meluncurkan.

Bagaimana harga WaveSpeed dibandingkan untuk ketiganya

Saya mencoba WaveSpeed sebagai lapisan pemeriksaan kewarasan harga, bukan solusi ajaib, hanya cara yang lebih tenang untuk memikirkan pengeluaran.

Yang menonjol bukan diskon ajaib. Itu adalah mekanismenya:

Sticky routing: Sematkan GPT-5 untuk endpoint yang membutuhkan perencanaannya, kirim peringkasan langsung ke DeepSeek, jaga GLM-5 untuk pengeditan terstruktur. Satu tagihan, lebih sedikit kejutan.
Context caching: System prompt dan skema alat tidak dikirim ulang di setiap panggilan. Dalam pengujian saya, ini memangkas token input sebesar sepertiga rata-rata. Tidak glamor, tapi itulah jenis penghematan yang terakumulasi.
Guardrail di ujung: Jika model menyimpang dari skema, WaveSpeed menangkapnya lebih awal dan mencoba ulang dengan provider yang sama. Tidak ada roulette provider di tengah pekerjaan.

Dari segi harga, perbandingannya sederhana:

Jika Anda sudah menyeimbangkan dua provider atau lebih, routing dan caching WaveSpeed dapat menurunkan “biaya efektif per output yang berguna” Anda, bahkan jika harga resmi tidak bergerak.
Jika Anda hanya menggunakan satu model dan prompt Anda jarang berubah, Anda mungkin tidak melihat banyak manfaat. Dalam hal itu, harga API langsung ditambah caching Anda sendiri sudah cukup.

Saya tidak menganggap WaveSpeed sebagai cara mendapatkan token yang lebih murah. Saya menganggapnya sebagai cara membuang lebih sedikit dari mereka.

Jika Anda menghadapi kendala serupa, ini layak untuk dilihat. Dan jika Anda puas dengan satu provider, itu juga baik-baik saja, terkadang stack yang paling tenang adalah yang terbaik.