WaveSpeed API Pricing: Bagaimana Kredit Bekerja + Kalkulator Biaya Sederhana

WaveSpeed API Pricing: Bagaimana Kredit Bekerja + Kalkulator Biaya Sederhana

Halo, ingat saya? Saya Dora.

Saya tidak berniat untuk memikirkan tentang harga. Saya hanya menginginkan pengujian sore yang tenang. Tetapi di tengah pengkabelan prototipe kecil (Januari 2026), catatan saya mulai bergeser dari “apakah ini berfungsi?” menjadi “berapa biaya jika ini benar-benar diluncurkan?” Itu biasanya saat saya berhenti. Harga API WaveSpeed tidak mencolok. Ini adalah jenis yang bersembunyi di tepi, ukuran konteks, percobaan ulang, ukuran data. Tidak ada yang dramatis, tetapi semuanya bertambah. Berikut adalah cara saya mengukurnya, dengan angka nyata di mana saya bisa dan estimasi biasa di mana saya tidak bisa. Jika Anda bekerja seperti saya, mengirimkan eksperimen kecil yang mungkin berkembang, ini mungkin membantu Anda merencanakan tanpa menebak.

Bagaimana harga diukur

Saya tidak bisa menemukan angka tunggal yang menangkap harga API WaveSpeed dengan bersih. Jadi saya memperlakukannya sebagai tiga bucket:

  • Panggilan dasar: biaya untuk menekan endpoint sekali. Pikirkan ini sebagai “biaya pintu.”
  • Beban kerja variabel: bagian yang tumbuh dengan apa yang Anda kirim dan minta, token, ukuran file, tingkat model, alat yang digunakan, panjang konteks.
  • Extras: penyimpanan, egress data, dan apa pun yang bertahan atau memindahkan data keluar.

Untuk perencanaan, saya menggunakan formula sederhana:

Biaya perkiraan = (berjalan × dasar_per_panggilan) + (volume_input × rate_in) + (volume_output × rate_out) + (data_disimpan × storage_rate × bulan) + (egress_GB × egress_rate)

Ini membosankan, itulah mengapa ini berfungsi. Saya menyimpan tarif dalam lembar kecil dan menyesuaikan seiring perubahan dokumen. Jika Anda melakukan ini juga, tandai halaman harga dan batas resmi: mereka sering bergerak, dan perubahan kecil di sana merambat ke semuanya.

Faktor yang mengalikan biaya

Beberapa hal dengan tenang mendorong total lebih tinggi. Tidak ada yang “jebakan” sendiri. Bersama-sama, mereka adalah alasan anggaran bergeser.

  • Prompt panjang dan output yang murah hati: Setiap 1k token tambahan muncul di tagihan. Saya membatasi token output maksimal kecuali ada alasan untuk tidak.
  • Percobaan ulang dan fallback: Solid untuk keandalan, kasar pada biaya jika dibiarkan terbuka lebar. Saya menggunakan backoff eksponensial dengan batas yang tegas.
  • File besar: Transkripsi, visi, atau parsing PDF menjadi mahal saat Anda melempar aset besar padanya. Saya downsample atau chunk.
  • Rantai tooling: Satu tindakan pengguna dapat menyebar ke beberapa panggilan API. Mudah lupa bahwa setiap langkah alat adalah panggilan yang dapat ditagih lagi.
  • Kebersamaan: Parallelism hebat untuk latensi, tetapi mengalikan biaya selama tes beban. Saya menaikkannya terlambat, bukan awal.
  • Logging dan tangkapan: Membantu untuk debugging. Mahal jika Anda menyimpan semuanya selamanya. Saya menyimpan log terstruktur tipis dan memutar secara agresif.

Jika Anda mengukur tidak ada yang lain, ukur token, ukuran file, dan hitungan percobaan ulang. Ketiga itu menjelaskan sebagian besar kejutan bagi saya.

3 skenario nyata (10 / 50 / 100 berjalan)

Ini bukan angka resmi. Mereka adalah estimasi perencanaan saya dari prototipe Januari 2026. Tukar dengan tarif Anda sendiri: bentuknya harus bertahan.

Asumsi tarif placeholder (untuk matematika saja):

  • Dasar per panggilan: $0.002
  • Token input: $0.50 per 1 juta token ($0.0005 per 1k)
  • Token output: $1.00 per 1 juta token ($0.001 per 1k)
  • Penyimpanan: $0.02 per GB-bulan
  • Egress: $0.09 per GB

Skenario A: prompt pendek → jawaban pendek

  • Input rata-rata: 600 token: output: 200 token: tanpa file.
  • Per run: dasar $0.002 + input (0.6k × $0.0005 = $0.0003) + output (0.2k × $0.001 = $0.0002) = $0.0025
  • 10 berjalan ≈ $0.025: 50 berjalan ≈ $0.125: 100 berjalan ≈ $0.25

Bagaimana perasaannya: pada dasarnya gratis sampai percobaan ulang dimulai. Ketika saya mengizinkan 3 percobaan ulang, biaya hampir berlipat ganda selama satu jam yang tidak stabil. Saya membatasi pada 1 percobaan ulang dan antri sisanya.

Skenario B: ringkasan PDF medium

  • Input rata-rata: 6.000 token dari teks chunked: output: 1.000 token.
  • Per run: dasar $0.002 + input (6k × $0.0005 = $0.003) + output (1k × $0.001 = $0.001) = $0.006
  • 10 berjalan ≈ $0.06: 50 berjalan ≈ $0.30: 100 berjalan ≈ $0.60

Catatan: biaya tersembunyi di sini adalah ekstraksi. Ketika saya mengirim PDF lengkap alih-alih potongan teks yang bersih, langkah persiapan menambah waktu dan terkadang panggilan kedua. Teks-pertama lebih murah dan lebih dapat diprediksi.

Skenario C: visi ringan + ringkasan + ekspor

  • Gambar: rata-rata 1,5 MB: input 2.000 token: output 500 token: simpan hasil selama 1 bulan: ekspor 0,5 GB total di seluruh berjalan.
  • Per run (API): dasar $0.002 + input (2k × $0.0005 = $0.001) + output (0.5k × $0.001 = $0.0005) = $0.0035
  • Penyimpanan: jika setiap hasil menambahkan ~200 KB artefak, 100 berjalan ≈ 20 MB = 0,02 GB × $0,02 ≈ $0,0004/bulan (diabaikan)
  • Egress: 0,5 GB × $0,09 = $0,045 total di seluruh batch
  • 10 berjalan ≈ $0.035 + penyimpanan kecil: 50 berjalan ≈ $0.175 + egress jika Anda ekspor: 100 berjalan ≈ $0.35 + ~$0.045 egress

Apa yang mengejutkan saya: egress adalah satu-satunya item baris yang saya rasakan. Bukan yang besar, tetapi terlihat ketika saya mengekspor media untuk klien.

Di suatu titik, saya berhenti ingin memperkirakan dan hanya menginginkan hal-hal tetap dapat diprediksi.
Itulah mengapa kami membangun WaveSpeed — untuk menjalankan eksperimen seperti ini tanpa terus-menerus menonton hitungan token, percobaan ulang, atau garis egress kejutan.

Jika Anda melakukan stress-testing ide yang mungkin skala, coba.

Tabel kalkulator biaya

Saya menyimpan lembar kerja kecil. Ini bukan mewah, hanya matematika jujur. Jika Anda menginginkan sketsa cepat, masukkan angka Anda ke dalam pola ini.

BerjalanDasar/panggilan ($)Token input/runToken output/runRate in ($/1k)Rate out ($/1k)Egress (GB)Egress $/GBEst. total ($)
100.0026002000.00050.00100.09(10×0.002) + (10×0.6×0.0005) + (10×0.2×0.001) + (0×0.09)
500.002600010000.00050.00100.09(50×0.002) + (50×6×0.0005) + (50×1×0.001)
1000.00220005000.00050.0010.50.09(100×0.002) + (100×2×0.0005) + (100×0.5×0.001) + (0.5×0.09)

Catatan: Ganti tarif placeholder dengan angka terkini dari halaman harga WaveSpeed. Saya menyimpan versi di lembar, hanya kolom tanggal, jadi saya ingat apa yang berubah dan kapan.

Cara memotong pemborosan

Apa yang paling membantu saya bukan sihir, hanya rel pengaman yang tetap:

  • Atur token output maksimal. Jawaban panjang bagus: tagihan yang dapat diprediksi lebih bagus.
  • Prompt potong. Gunakan kembali prompt sistem dan ID referensi alih-alih menempel dinding teks.
  • Hasil antara cache. Jangan re-embed atau re-ringkas konten yang tidak berubah.
  • Batch di mana aman. Sepuluh panggilan kecil bisa lebih murah daripada satu yang raksasa, atau sebaliknya. Uji keduanya.
  • File ukuran yang tepat. Downsample gambar, ekstrak teks dari PDF sebelum mengirim.
  • Batas percobaan ulang dan timeout. Keandalan baik: loop tak terbatas tidak.
  • Log jarang. Simpan hash dan ID: lepaskan muatan mentah kecuali Anda benar-benar membutuhkannya.

Tips penagihan tim

Saya telah tersandung pada biaya tim lebih dari sekali. Beberapa kebiasaan menyelamatkan saya:

  • Kunci terpisah per lingkungan dan proyek. Membuat atribusi jelas.
  • Tag permintaan dengan pengguna atau ID fitur. Biaya post-hoc per fitur adalah emas selama perencanaan.
  • Dasbor bersama dengan snapshot mingguan. Tidak ada yang membaca kebisingan harian.
  • Anggaran lunak di tingkat proyek. Ketika 80% tercapai, fitur melambat atau beralih ke jalur yang lebih murah.
  • Satu orang memiliki pembaruan harga. Bukan untuk menjaga ketat, hanya untuk mengurangi drift.
  • Simpan runbook: apa yang harus dibatasi pertama kali biaya lonjakan (token output, kebersamaan, atau alat opsional).

Rel pengaman anggaran

Inilah yang saya letakkan sebelum apa pun menghadapi pengguna nyata:

  • Estimator preflight: fungsi kecil yang menghitung biaya perkiraan per tindakan dan menambahkannya ke log.
  • Batas per tindakan: jika satu run memproyeksikan di atas $X, itu menolak dengan baik.
  • Batas harian dan bulanan dengan pemberitahuan. Pemberitahuan masuk ke saluran tenang yang benar-benar diperhatikan seseorang.
  • Mode lambat: bendera yang membagi dua kebersamaan di bawah tekanan anggaran.
  • Bendera fitur untuk jalur berat: matikan visi atau fitur konteks panjang tanpa menerapkan ulang.
  • Tinjauan cadence: 15 menit setiap Jumat lain untuk memperbarui tarif dari halaman harga resmi. Jujur, tidak ada yang glamor tentang ini. Tetapi harga API WaveSpeed berperilaku ketika Anda melakukannya. Yang lucu adalah, setelah rel pengaman ada, alat memudar ke latar belakang lagi, persis di mana saya menyukainya.

Saya masih menangkap diri saya memeriksa hitungan token dari kebiasaan, kemudian menutup tab ketika angkanya terlihat wajar. Kebiasaan lama. Lega kecil. Saya akan menerimanya.