Biaya DeepSeek V4 per Juta Token: Kalkulator Lengkap

Hei, semuanya. Dora di sini.

Saya menghabiskan tiga minggu bulan lalu menjalankan DeepSeek V4 di lingkungan produksi. Tagihan bulanan saya sebesar $18. Beban kerja yang sama di GPT-4o akan menelan biaya sekitar $380. Di Claude Opus 4.5, mendekati $720.

Selisih itu membuat saya menggali angka-angkanya dengan serius — bukan untuk merayakan komputasi murah, tetapi untuk memahami apakah harganya tetap terjangkau dalam penggunaan nyata dan di mana biaya tersembunyi bersembunyi.

Harga Resmi Saat Peluncuran (tabel terverifikasi)

Harga resmi DeepSeek V4 telah diluncurkan:

Tarif standar (per 1 juta token):

Token input (cache miss): $0,30
Token input (cache hit): $0,03
Token output: $0,50

Tarif di luar jam sibuk (per 1 juta token):

Token input (cache miss): $0,15
Token input (cache hit): $0,015
Token output: $0,25

Diskon cache hit sebesar 90%. Artinya, jika Anda menyusun prompt dengan elemen yang berulang — instruksi sistem, definisi alat, template dokumen — biayanya turun drastis setelah permintaan pertama.

Token input — standar vs cache hit vs di luar jam sibuk

Cache hit terjadi ketika DeepSeek mengenali bahwa sebagian prompt Anda telah diproses baru-baru ini dan menggunakan kembali komputasi tersebut. Ini hanya berfungsi dengan prefiks yang konsisten — instruksi sistem atau definisi alat yang tidak berubah antar panggilan.

Saya menguji ini dengan sebuah perangkum penelitian. Prompt sistem dan skema ekstraksi tetap konstan di setiap proses. Setelah permintaan pertama, tingkat cache hit bertahan di sekitar 65-70%. Biaya input efektif saya turun dari $0,30 menjadi sekitar $0,12 per juta token.

Harga di luar jam sibuk berlaku dari sekitar pukul 23.00 hingga 07.00 waktu Beijing (UTC+8) dengan diskon 50% untuk semua jenis token. Saya menjadwalkan pekerjaan batch mingguan pada pukul 02.00 waktu Beijing. Beban kerja yang sama, setengah biaya. Latensi tidak menjadi masalah untuk pemrosesan batch, sehingga trade-off-nya sangat jelas.

Token output — standar vs di luar jam sibuk

Token output lebih mahal karena proses generasi memerlukan komputasi berurutan — model tidak dapat memparalelkan output seperti saat memproses input. Dengan harga $0,50 per juta (standar) atau $0,25 (di luar jam sibuk), Anda tetap membayar lebih murah dari biaya input yang dikenakan sebagian besar model.

GPT-4o mengenakan $2,50 per juta token output. Claude Opus 4.5 mengenakan $15. Untuk kasus penggunaan saya — menghasilkan ringkasan 800-1.200 token dari input 3.000-5.000 token — biaya output tetap lebih rendah dari biaya input bahkan tanpa manfaat caching.

Perbandingan harga V4 vs V3

V4 diluncurkan dengan harga $0,30 input / $0,50 output dibandingkan $0,14 / $0,28 pada V3 saat debut akhir Desember 2024. Ini kenaikan sekitar 15% dalam nilai absolut.

Kenaikan tersebut mencerminkan peningkatan arsitektur nyata: jendela konteks yang lebih panjang (hingga 1 juta token), akurasi pemanggilan alat yang lebih baik, dan mode penalaran hibrida yang tidak tersedia di V3. Yang berubah bukan hanya harganya, melainkan rasio kemampuan terhadap biaya. V4 meraih 81% di SWE-bench Verified dibandingkan 69% pada V3, artinya Anda mendapatkan performa yang jauh lebih baik hanya dengan biaya 1,14x lebih tinggi.

Mengapa DeepSeek 20-50x Lebih Murah dari OpenAI

Selisih harga ini bukan sekadar pemasaran. Ini adalah efisiensi arsitektur yang diterjemahkan menjadi biaya operasional.

Arsitektur MoE: 671 miliar total, 37 miliar aktif

DeepSeek V4 menggunakan Mixture-of-Experts dengan total 671 miliar parameter tetapi hanya mengaktifkan 37 miliar per token. Ketika Anda mengirimkan permintaan, mekanisme routing model memilih 8 pakar spesialis dari kumpulan 256, ditambah satu pakar bersama yang memproses semuanya. 9 pakar itulah yang menangani komputasi. Sisanya, 247 lainnya, tetap tidak aktif.

Hal ini penting karena biaya komputasi bergantung pada parameter aktif, bukan total parameter. Bandingkan ini dengan model padat seperti GPT-4, yang mengaktifkan semua parameter untuk setiap token. Model berparameter 405 miliar seperti Llama 3.1 membutuhkan sekitar 2.448 GFLOP per token. DeepSeek V4 membutuhkan sekitar 250 GFLOP — hampir 10x lebih sedikit komputasi.

Efisiensi ini juga terlihat dalam persyaratan deployment. V4 dapat berjalan di satu server dengan dual RTX 4090 untuk beban kerja yang lebih kecil. Model padat dengan kemampuan setara membutuhkan kluster GPU multi-node. Biaya perangkat keras berlipat ganda seiring jutaan panggilan API, dan penghematan tersebut mengalir ke penetapan harga. Keuntungan efisiensi sebagian berasal dari arsitektur manifold-constrained hyper-connections (mHC) DeepSeek, yang mengoptimalkan routing antar lapisan pakar.

Biaya pelatihan ($5,6 juta vs GPT-4 $100 juta+)

DeepSeek melatih V3 seharga $5,6 juta menggunakan 2,788 juta jam GPU H800 dengan 14,8 triliun token. Estimasi industri menempatkan biaya pelatihan GPT-4 sekitar $100 juta atau lebih — sekitar 18x lebih tinggi.

Selisih ini berasal dari dua faktor: arsitektur MoE lebih cepat dilatih daripada model padat pada tingkat kemampuan yang sama, dan DeepSeek menggunakan GPU H800 yang lebih murah dari H100 namun tetap memberikan performa yang memadai.

Biaya pelatihan yang lebih rendah tidak secara otomatis berarti harga inferensi yang lebih rendah — perusahaan dapat mengenakan harga sesuai kemampuan pasar — tetapi DeepSeek secara konsisten meneruskan penghematan tersebut. V2, V3, dan V4 semuanya diluncurkan di bawah tarif model frontier sambil menyamai atau melampaui performa pada benchmark utama. Pola ini menunjukkan bahwa harganya berkelanjutan, bukan sementara.

Template Kalkulator Biaya Nyata

Input: token harian, tingkat cache hit, persentase di luar jam sibuk

Variabel yang penting:

Total token input/output per hari
Tingkat cache hit (0-100%)
Persentase di luar jam sibuk (0-100%)
Hari per bulan

Perhitungannya sederhana:

cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost

Terapkan diskon di luar jam sibuk (50% selama jam di luar jam sibuk)
monthly_cost = adjusted_daily_cost × 30

Contoh: beban kerja 10 juta token/hari

Beban kerja yang memproses 10 juta token harian biasanya terbagi menjadi sekitar 6 juta token input dan 4 juta token output. Rasio ini umum untuk tugas peringkasan, penulisan ulang, atau pembuatan konten.

Asumsi:

Tingkat cache hit 40% (konservatif untuk alur kerja dengan prompt sistem yang konsisten)
Penggunaan 30% di luar jam sibuk (pekerjaan batch dijadwalkan semalaman)
Harga standar V4

Rincian biaya harian:

Input yang dapat di-cache: (6 juta × 0,40 × $0,03) / 1 juta = $0,072
Input yang tidak dapat di-cache: (6 juta × 0,60 × $0,30) / 1 juta = $1,08
Output: (4 juta × $0,50) / 1 juta = $2,00
Total sebelum di luar jam sibuk: $3,15

Dengan penjadwalan 30% di luar jam sibuk:

Porsi standar (70%): $2,21
Porsi di luar jam sibuk (30% × diskon 50%): $0,47
Harian yang disesuaikan: $2,68/hari atau $80,40/bulan

Sebagai perbandingan, beban kerja yang sama dengan 10 juta token harian akan menelan biaya:

GPT-4o: ~$450/bulan
Claude Opus 4.5: ~$900/bulan
DeepSeek V4: $80,40/bulan

Itu adalah pengurangan biaya 82-91% untuk kemampuan yang sebanding.

Contoh: pipeline RAG dengan tingkat cache hit 80%

Pipeline retrieval-augmented generation melihat tingkat cache hit yang lebih tinggi karena konteks yang diambil sering kali tumpang tindih di antara kueri yang serupa.

Sistem RAG yang menjawab 1.000 kueri harian:

8.000 token input per kueri (2.000 untuk pertanyaan pengguna + 6.000 untuk konteks yang diambil)
500 token output per kueri (jawaban yang dihasilkan)
Tingkat cache hit 80% (potongan dokumen berulang di seluruh kueri)
0% di luar jam sibuk (menghadap pengguna, membutuhkan respons segera)

Biaya harian:

Total input: 8 juta token
Yang dapat di-cache: (8 juta × 0,80 × $0,03) / 1 juta = $0,192
Yang tidak dapat di-cache: (8 juta × 0,20 × $0,30) / 1 juta = $0,48
Output: (500 ribu × $0,50) / 1 juta = $0,25
Total harian: $0,92
Bulanan: $27,66

Tanpa caching, beban kerja ini akan menelan biaya $122,50/bulan. Optimasi cache yang tepat menghemat sekitar $95/bulan — pengurangan 77%. Inilah mengapa prompt yang terstruktur dan dapat diulang lebih penting dari yang mungkin terlihat.

Biaya Tersembunyi yang Perlu Dianggarkan

Overhead percobaan ulang saat mencapai batas rate

DeepSeek memberlakukan batas rate sekitar ~100.000 TPM dan ~500 RPM (berdasarkan perilaku V3 dan pengujian). Saat Anda mencapai batas, API mengembalikan status 429 dan Anda perlu mencoba ulang dengan backoff. Selama pengujian yang sengaja melebihi batas, sekitar 8% permintaan memerlukan satu kali percobaan ulang, 2% memerlukan dua kali. Biaya token dari percobaan ulang adalah nol (permintaan yang gagal tidak ditagih), tetapi latensi penting untuk beban kerja yang sensitif waktu.

Permintaan konteks panjang (1 juta token)

Satu input 1 juta token menelan biaya $0,30. Jika Anda memproses 100 dokumen setiap hari, itu $270/bulan hanya untuk input. Yang lebih penting, permintaan konteks panjang memakan waktu lebih lama — pengujian saya menunjukkan input 500 ribu token membutuhkan 12-18 detik untuk token pertama dibandingkan 2-3 detik untuk input 10 ribu token. Untuk sebagian besar kasus penggunaan, memecah dokumen memberikan biaya dan latensi yang lebih baik.

Inflasi token dari pemanggilan alat

Definisi alat mengonsumsi token input. Satu alat biasanya menggunakan 150-300 token. Dengan 20 alat yang terekspos, itu 3.000-6.000 token yang ditambahkan ke setiap permintaan. Pemanggilan alat juga menambah output karena model menghasilkan JSON terstruktur untuk setiap pemanggilan (50-150 token per panggilan). Agen uji coba saya dengan 15 alat rata-rata menambahkan 250 token output tambahan per permintaan. Solusinya: hanya sertakan alat yang relevan untuk setiap jenis permintaan.

Kapan V4 Tidak Lagi Murah (ambang batas skala)

Sekitar 50 juta token harian (~$4.000/bulan dengan caching moderat), ekonomi self-hosting mulai masuk akal. DeepSeek membuka sumber bobotnya, sehingga menjalankan V4 di infrastruktur sendiri berarti biaya perangkat keras di awal tetapi tanpa biaya per token. Perkiraan titik impas:

50 juta+ token harian: self-hosting mungkin lebih murah dalam 6-12 bulan
Lonjakan sporadis: harga API tetap lebih efisien
Kebutuhan residensi data geografis: self-hosting mungkin diperlukan terlepas dari biaya

Sekitar 200-300 juta token harian ($12.000-15.000/bulan), membangun kluster inferensi sendiri dengan model yang dikuantisasi mulai masuk akal secara ekonomi.

Ambang batas lainnya adalah kompleksitas operasional. Di bawah 10 juta token harian, mengelola infrastruktur terasa berlebihan. Di atas 100 juta harian, tidak mengelolanya terasa seperti membiarkan uang berlalu begitu saja.

Saya berada di 5-7 juta token harian. API cukup murah sehingga saya tidak pernah memikirkan tagihannya, dan kemudahan operasional — tanpa server, tanpa keputusan penskalaan, tanpa downtime — sepadan dengan biayanya. Tapi saya tetap memantau angkanya.

Kalkulator yang saya bagikan adalah yang sama yang saya periksa setiap Senin. Saya tidak mengawasinya secara obsesif. Saya hanya ingin tahu apakah ada yang berubah — apakah tingkat cache hit turun, apakah penjadwalan di luar jam sibuk berhenti berfungsi.

Harga DeepSeek V4 terasa stabil saat ini. Cukup dapat diprediksi sehingga saya bisa menganggarkan tiga bulan ke depan tanpa khawatir tagihan mengejutkan. Kestabilan itu lebih penting dari angka absolutnya.