Harga Claude Managed Agents dan Batas Beta

Kemarin saya membuka lembar biaya infrastruktur agen kami dan menatapnya cukup lama. Nama saya Dora. Kami telah menjalankan loop agen yang di-hosting sendiri — orkestrasi alat, sandboxing, pemulihan error, logika checkpoint — dan itu menghabiskan sekitar 0,4 waktu seorang engineer hanya untuk menjaganya tetap berjalan. Ketika Anthropic meluncurkan Claude Managed Agents pada 8 April, hal pertama yang saya lakukan bukan membaca daftar fitur. Saya membuka halaman harga.

Artikel ini mendokumentasikan seperti apa struktur penagihan sesungguhnya ketika Anda menghitung angkanya, di mana batas rate limit berada, dan apa yang masih belum pasti karena label beta.

Bagaimana Claude Managed Agents Dihargai

Penagihan dua komponen: token + runtime sesi

Penagihan Managed Agents memiliki dua dimensi: token dan runtime sesi. Token dikenakan biaya sesuai tarif model API Claude standar — harga per juta token yang sama seperti yang Anda bayar melalui Messages API. Opus 4.6 dikenakan $5 input / $25 output per MTok. Sonnet 4.6 adalah $3 / $15. Pengali prompt caching berlaku identik: pembacaan cache dikenakan biaya 10% dari harga input dasar.

Dimensi kedua adalah biaya infrastruktur untuk container yang dikelola.

Runtime sesi: $0,08 per jam sesi

Biaya runtime adalah $0,08 per jam sesi untuk runtime aktif, ditagih berdasarkan konsumsi. Itu adalah biaya infrastruktur dari container bersandbox tempat agen Anda berjalan.

Satu detail yang perlu diperhatikan: runtime sesi menggantikan model penagihan jam container Code Execution saat menggunakan Managed Agents — Anda tidak dikenakan biaya ganda.

Pencarian web: $10 per 1.000 pencarian

Pencarian web yang dipicu di dalam sesi Managed Agents dikenakan tarif standar $10 per 1.000 pencarian. Tarif yang sama dengan API mandiri. Agen riset yang melakukan lusinan pencarian web per sesi akan merasakan item baris ini.

Hanya tersedia melalui Claude API secara langsung

Managed Agents ditagih melalui Claude Platform secara langsung. Harga platform pihak ketiga — Bedrock, Vertex AI, Foundry — tidak berlaku di sini. Jika Anda menjalankan agen melalui salah satu penyedia tersebut, ini adalah hubungan penagihan yang terpisah.

Biaya Runtime Sesi: Apa Artinya dalam Praktik

Apa yang dihitung sebagai runtime sesi

Runtime diukur hingga milidetik dan hanya bertambah ketika status sesi adalah running. Waktu idle — menunggu pesan berikutnya, konfirmasi alat, atau sesi yang sudah berakhir — tidak dihitung. Meteran berhenti ketika agen tidak melakukan apa pun.

Ini lebih penting dari yang terdengar. Agen yang menyelesaikan tugas dan menunggu 20 menit untuk input pengguna tidak membakar $0,08/jam selama 20 menit tersebut.

Agen tugas panjang vs. tugas singkat

Pekerjaan pemrosesan file 10 menit pada Sonnet 4.6 menghabiskan sekitar $0,013 dalam runtime. Hampir tidak terlihat. Biaya token yang mendominasi.

Sesi agen riset 4 jam pada Opus 4.6 berbeda. Itu menghasilkan $0,32 dalam runtime, tetapi jika agen secara aktif menalar melalui rantai alat yang kompleks, Anda mungkin membakar 200k+ token input dan 50k+ token output. Tagihan token saja bisa melebihi $1,25 sebelum caching mulai bekerja.

Estimasi biaya contoh

Berikut adalah contoh yang dikerjakan dari dokumen harga Anthropic: sesi coding satu jam pada Opus 4.6 yang mengonsumsi 50.000 token input dan 15.000 token output menghabiskan sekitar $0,70 total. Dengan prompt caching aktif dan 40.000 input tersebut mencapai cache, biayanya turun secara signifikan. Runtime menyumbang $0,08 dari total tersebut.

Pertanyaan sebenarnya bukan “apakah $0,08/jam mahal?” Melainkan “seberapa banyak token yang dibutuhkan loop alat agen saya?” Setiap perintah bash, pembacaan file, pengambilan web, dan pencarian web berkontribusi pada token. Sesi yang sangat agentik dengan lusinan panggilan alat akan menghabiskan konteks dengan cepat.

Batas Rate dan Kuota

Endpoint pembuatan: 60 permintaan per menit

Endpoint Managed Agents dibatasi rate per organisasi, dan batas ini terpisah dari batas rate Messages API. Endpoint pembuatan memungkinkan 60 RPM di tingkat organisasi.

Endpoint pembacaan: 600 permintaan per menit

Endpoint pembacaan dibatasi pada 600 RPM di tingkat organisasi. Jika Anda sering melakukan polling status sesi di banyak agen yang berjalan bersamaan, ini adalah batas yang akan Anda capai pertama kali.

Batas pengeluaran tingkat organisasi dan batas rate berbasis tingkat juga berlaku

Batas rate berbasis tingkat standar juga berlaku. Batas token per menit dan permintaan per menit dari tingkat API Anda tetap berlaku untuk panggilan model yang mendasari yang dibuat oleh agen Anda.

Cara meminta batas yang lebih tinggi

Untuk beban kerja produksi yang membutuhkan lebih banyak ruang, Anthropic menawarkan Priority Tier dengan komitmen pengeluaran. Hubungi tim penjualan mereka melalui Claude Console untuk pengaturan batas rate khusus. Grafik batas rate di Console menampilkan kapasitas tersisa secara real-time — gunakan untuk melihat kapan Anda mendekati batas sebelum mengalami error 429.

Header Beta dan Apa yang Berubah saat GA

managed-agents-2026-04-01: diperlukan di setiap permintaan

Semua endpoint Managed Agents memerlukan header beta managed-agents-2026-04-01. SDK mengaturnya secara otomatis. Jika Anda menggunakan cURL mentah atau klien HTTP khusus, tambahkan secara manual ke setiap permintaan.

Ketidakpastian era beta

Dokumentasi resmi menyatakan bahwa perilaku dapat disempurnakan antara rilis untuk meningkatkan output. Itu adalah peringatan beta standar.

Saya ingin tepat tentang apa artinya ini untuk harga. Ini bukan pengumuman bahwa Anthropic berencana mengubah harga saat GA. Artinya angka saat ini bukan komitmen kontraktual permanen — yang berlaku untuk harga era beta mana pun, di mana saja. Bangun model biaya Anda dengan ketidakpastian tersebut diperhitungkan, tetapi jangan membacanya sebagai sinyal perubahan harga yang akan datang.

Fitur pratinjau riset tetap terbatas

Fitur tertentu — outcomes, koordinasi multi-agen, dan memori — berada dalam pratinjau riset dan memerlukan permintaan akses terpisah. Ini bisa membawa implikasi biaya tambahan ketika keluar dari pratinjau. Saya belum tahu. Begitu juga siapa pun di luar Anthropic.

Interaksi Batch API dan Caching

Batch API: tidak tersedia untuk Managed Agents

Ini yang akan membuat orang terkecoh. Pengubah Messages API termasuk Batch API tidak berlaku untuk sesi Claude Managed Agents. Jika Anda mengandalkan diskon 50% untuk pemrosesan massal, Anda tidak dapat mereplikasi struktur biaya tersebut dengan Managed Agents. Ini adalah batasan yang dikonfirmasi, bukan item roadmap.

Prompt caching: sudah terintegrasi

Prompt caching sudah terintegrasi ke dalam harness Managed Agents. Pengali standar berlaku — cache write pada 1,25x input dasar untuk TTL 5 menit, cache read pada 0,1x. Untuk sesi yang berjalan lama di mana sistem prompt dan konteks awal digunakan kembali di banyak panggilan alat, caching dapat secara signifikan mengurangi tagihan token.

Kompaksi: sudah terintegrasi

Harness mendukung kompaksi terintegrasi dan optimasi kinerja lainnya untuk output agen yang efisien. Untuk sesi yang berjalan cukup lama mendekati batas jendela konteks, kompaksi secara otomatis merangkum giliran percakapan sebelumnya. Ini membantu mengelola akumulasi token tanpa Anda harus membangun strategi pemotongan khusus.

Pertimbangan Biaya Tersembunyi

Overhead eksekusi alat

Setiap panggilan alat menghasilkan token. Perintah bash, pembacaan file, pengambilan web — setiap satu menambahkan token input dan output ke total sesi Anda. Agen riset yang merantai 30+ panggilan alat dalam satu sesi akan mengakumulasi biaya token yang jauh melampaui biaya runtime $0,08/jam.

Pencarian web dengan $10/1.000 panggilan adalah biaya per panggilan yang paling terlihat. Tetapi yang kurang terlihat adalah overhead token dari hasil alat yang mengalir kembali ke konteks. Pengambilan web yang mengembalikan halaman panjang memasukkan ribuan token ke dalam sesi Anda.

Fitur pratinjau riset: potensi pengali biaya

Koordinasi multi-agen — di mana agen dapat memunculkan dan mengarahkan agen lain — tersedia dalam pratinjau riset. Setiap sub-agen menjalankan sesinya sendiri dengan konsumsi token dan meteran runtime sendiri. Pengali biaya tergantung pada berapa banyak sub-agen yang dimunculkan dan berapa lama masing-masing berjalan. Saya belum dapat memverifikasi apakah sesi sub-agen dikenakan biaya runtime terpisah atau berbagi dengan induknya. Ini adalah hal yang perlu diperhatikan.

FAQ

Apakah Claude Managed Agents gratis selama beta?

Tidak. Harga berbasis konsumsi sudah aktif sekarang — tarif token standar ditambah $0,08 per jam sesi untuk runtime aktif. Tidak ada tingkat gratis khusus untuk Managed Agents. Pengguna API baru menerima sejumlah kecil kredit gratis untuk pengujian awal, tetapi itu adalah kredit orientasi API standar, bukan keuntungan Managed Agents.

Bagaimana penagihan runtime sesi bekerja untuk agen async?

Runtime hanya bertambah ketika status sesi adalah running. Jika agen menyelesaikan tugas dan masuk ke idle — menunggu pesan pengguna berikutnya atau konfirmasi alat — waktu idle tersebut tidak dikenakan biaya. Meteran berhenti dan kembali berjalan ketika pemrosesan dimulai kembali. Pengukuran hingga milidetik.

Bisakah saya menggunakan diskon Batch API dengan Managed Agents?

Tidak. Diskon Batch API 50% tidak berlaku. Jika penghematan tingkat batch sangat penting untuk alur kerja Anda, evaluasi apakah penghematan infrastruktur dari hosting yang dikelola mengimbangi kehilangan diskon batch. Untuk beberapa beban kerja, menjalankan loop agen sendiri di Messages API dengan pemrosesan batch masih akan lebih murah.

Apa yang terjadi pada penagihan ketika beta berakhir?

Anthropic belum berkomitmen pada harga GA yang spesifik. $0,08/jam sesi dan tarif token standar saat ini adalah angka era beta. Model penagihan kemungkinan akan bertahan dalam beberapa bentuk, tetapi angka spesifiknya bisa berubah. Pertimbangkan ketidakpastian tersebut dalam proyeksi biaya jangka panjang apa pun.

Apakah ada tingkat gratis atau percobaan?

Tidak ada percobaan Managed Agents yang didedikasikan. Kredit gratis API standar berlaku. Untuk evaluasi perusahaan, tim penjualan Anthropic dapat mendiskusikan pengaturan percobaan yang diperpanjang — hubungi mereka melalui Claude Console atau di sales@anthropic.com.

Itulah yang dapat saya konfirmasi per 9 April 2026. Struktur harga cukup mudah dipahami setelah Anda memisahkan dua dimensi penagihan, tetapi variabel sebenarnya adalah akumulasi token panggilan alat — di situlah perkiraan Anda akan menyimpang dari kenyataan. Saya masih menjalankan sesi uji coba untuk mendapatkan pemahaman yang lebih baik tentang bagaimana kompaksi dan caching berinteraksi pada titik lebih dari 2 jam. Akan ada update lebih lanjut.

Postingan sebelumnya: