← Blog

CubeSandbox vs E2B untuk Agen Produksi

Bandingkan CubeSandbox vs E2B untuk eksekusi agen, dengan fokus pada isolasi, kecepatan startup, kompatibilitas, dan kapan self-hosting sebanding dengan trade-off-nya.

10 min read
CubeSandbox vs E2B untuk Agen Produksi

Saya Dora. Baru-baru ini, kami menjalankan sebuah agen yang melakukan pemanggilan alat di lingkungan produksi. Orkestrator berjalan baik. LLM berjalan baik. Bottleneck-nya ada di lapisan sandbox — setiap kali agen perlu menjalankan potongan kode yang dihasilkan, kami membayar 200ms cold start, kadang lebih, kadang antrean bertingkah aneh. Dengan ~40 pemanggilan alat per sesi, angka itu terakumulasi menjadi porsi waktu yang cukup signifikan.

Maka saya mulai mencari alternatif. Perbandingan yang tampaknya sedang banyak dibahas saat ini adalah CubeSandbox vs E2B. Artikel ini adalah hasil yang saya temukan setelah dua minggu membaca kedua proyek, mendeploy salah satunya, dan tidak bisa mendeploy yang satunya lagi (akan saya ceritakan nanti).

Pernyataan singkat di awal: saya tidak memiliki hubungan komersial dengan proyek mana pun. Keduanya open source. Gambaran di bawah ini adalah trade-off hosted-vs-self-hosted, bukan soal “pihak baik / pihak jahat.”

CubeSandbox vs E2B Sekilas

Kedua proyek memecahkan masalah yang sama dengan cara yang kurang lebih sama: spin up microVM, jalankan kode yang tidak dipercaya, lalu matikan. Keduanya mempublikasikan angka performa yang sebanding. Perbedaan nyatanya ada pada bentuk produk.

CubeSandbox adalah stack sandbox-as-a-service open source dari Tencent Cloud, dirilis April 2026 di bawah Apache 2.0. Dibangun di atas RustVMM dan KVM. Angka utama dari repo mereka: cold start di bawah 60ms, ~5MB memori per sandbox, kompatibilitas native SDK E2B (cukup ganti satu variabel lingkungan URL). Didistribusikan sebagai stack self-hostable penuh, bukan sekadar library.

E2B juga open source (juga Apache 2.0), dibangun di atas Firecracker microVM. Didirikan tahun 2023. Inisialisasi sandbox sekitar 150–200ms dengan pool snapshot yang sudah dipanaskan. Self-hosting tersedia melalui skrip Terraform, tetapi distribusi utamanya adalah cloud terkelola — Hobby (gratis, kredit $100), Pro ($150/bulan + penggunaan), Enterprise (BYOC, on-prem). Pengguna self-hosted adalah minoritas, hosted adalah cerita utamanya.

Jadi sumbu sesungguhnya bukan “sandbox mana yang lebih baik.” Melainkan:

FiturCubeSandboxE2B
LisensiApache 2.0Apache 2.0
Mode utamaSelf-hostedHosted SaaS (self-host memungkinkan)
VMM yang digunakanRustVMM + KVMFirecracker (KVM)
Cold start yang dipublikasikan<60ms~150–200ms
Memori per sandbox~5MB~5MB
Kompatibilitas SDKDrop-in SDK E2BSDK E2B native
Dukungan GPUMemerlukan Linux x86_64 dengan KVM; tidak ada passthrough native di upstreamBatasan GPU Firecracker yang sama
Beban operasionalAnda yang mengelola clusterE2B yang mengelola cluster (terkelola)

Angka di atas diambil dari repo dan catatan rilis masing-masing proyek, bukan dari benchmark yang saya jalankan sendiri. Anggaplah sebagai angka yang dipublikasikan vendor — berguna sebagai arah, bukan pengganti pengujian Anda sendiri.

Trade-off hosted vs self-hosted

Ini adalah keputusan sesungguhnya, dan sebagian besar bukan soal teknis.

Memilih hosted dengan E2B berarti Anda berhenti memikirkan kernel microVM, pool snapshot, host KVM, dan failover orkestrator. Anda juga berhenti memikirkan optimisasi biaya, karena harga sudah ditetapkan untuk Anda. Tim saya mencoba E2B Pro selama dua minggu — integrasi memang butuh sekitar satu jam, SDK-nya bersih, dan jam engineering yang dihemat sangat nyata.

Memilih self-hosted dengan CubeSandbox berarti Anda yang menguasai server. Biaya menjadi “berapa harga server yang mendasarinya” alih-alih “berapa biaya kurva penggunaan kami.” Kepatuhan menjadi lebih mudah karena tidak ada data yang melintas perimeter Anda. Tapi Anda juga bertanggung jawab atas rotasi on-call, pembaruan kernel, dan penyesuaian kebijakan eBPF. CubeSandbox menyertakan deploy satu klik untuk setup node tunggal dan cluster, yang membantu, tapi “deploy satu klik” dan “cluster siap produksi” bukan kalimat yang sama.

Saya berhenti di sini beberapa hari, karena jawabannya benar-benar bergantung pada bentuk tim. Startup empat orang yang mengerjakan agen dalam kuartal ini mungkin sebaiknya tidak mengelola armada microVM sendiri. Tim dengan insinyur infrastruktur dan kendala kepatuhan mungkin memang harus.

Pertanyaan kompatibilitas dan migrasi

Klaim kompatibilitas CubeSandbox dengan E2B adalah klaim teknis paling menarik dalam rilis CubeSandbox. Menurut dokumentasinya, agen berbasis E2B yang sudah ada dapat mengganti satu variabel lingkungan dan mengarahkan traffic ke cluster CubeSandbox self-hosted — tanpa perubahan kode. Saya belum secara pribadi memigrasikan workload E2B produksi, jadi saya menerima klaim ini berdasarkan kepercayaan untuk saat ini, tetapi dapat diverifikasi dengan membaca pemanggilan SDK yang diterima masing-masing sisi. Area permukaannya kecil. Keduanya berbicara lifecycle Sandbox yang sama: buat, jalankan perintah, jalankan kode, hentikan.

Di sinilah hal ini menjadi berguna: artinya CubeSandbox pada dasarnya adalah backend bring-your-own-infrastructure untuk SDK E2B. Anda bisa mengembangkan di cloud hosted E2B, lalu mengarahkan ulang ke cluster Anda sendiri ketika penggunaan sudah membenarkannya. Argumen lock-in melemah untuk keduanya — yang menurut saya sehat untuk kategori ini.

Di Mana CubeSandbox Unggul

Kontrol, struktur biaya, dan kepemilikan infrastruktur

Bagi tim agen mana pun yang menjalankan volume cukup besar sehingga harga sandbox terkelola mulai muncul di tagihan bulanan, CubeSandbox adalah pilihan yang lebih jujur. Anda membayar untuk hardware yang sudah Anda pahami. Penyaringan egress melalui eBPF (CubeVS) dapat dikonfigurasi di level kernel. Jika aturan residensi data Anda menyatakan “ini tidak boleh meninggalkan VPC kami,” itu adalah percakapan 30 detik dengan sandbox self-hosted dan percakapan jauh lebih panjang dengan yang terkelola.

Hal yang jarang diungkapkan: runtime agen self-hosted bukan makan siang gratis. Biaya marjinal per eksekusi turun, biaya tetap naik. Titik impas unik untuk kurva penggunaan setiap tim. Hitung dulu sebelum memutuskan. Jika jawabannya “kami akan hemat $300/bulan dan menambah dua jam kerja ops mingguan,” itu bukan kemenangan.

Klaim performa dan kepadatan yang harus tim uji sendiri

CubeSandbox mempublikasikan cold start di bawah 60ms, yang catatan rilis Tencent Cloud melalui HPCwire gambarkan sebagai “sepertiga dari rata-rata industri (150ms)”. Mereka juga mengklaim 2.000+ sandbox di satu mesin fisik. Angka-angka tersebut berasal dari workload produksi di dalam Tencent Cloud, bukan benchmark sintetis — yang lebih baik dari sintetis, tapi tetap saja workload mereka, bukan workload Anda.

Yang akan saya uji sebelum mempercayai angka utama:

  • Cold start dengan ukuran snapshot aktual Anda (template 5GB berperilaku berbeda dari yang 200MB)
  • Perilaku konkurensi di p99, bukan hanya rata-rata — CubeSandbox mempublikasikan rata-rata respons 67ms pada 50 konkuren, yang menjanjikan tapi tidak sama dengan p99
  • Apakah dependensi spesifik Anda bertahan dengan kernel stripped-down milik RustVMM tanpa kejutan

Di sinilah data saya berakhir. Saya mendeploy CubeSandbox di satu VM dengan KVM aktif dan berhasil melayani sandbox dalam sekitar setengah hari. Saya belum melakukan stress-test pada angka kepadatan yang ada dalam rilis tersebut. Siapa pun yang mengatakan mereka sudah melakukannya, setelah tiga minggu proyek ini dipublikasikan, kemungkinan besar berlebihan.

Di Mana E2B Masih Unggul

Separuh lain dari gambaran CubeSandbox vs E2B: jika Anda tidak ingin memikirkan infrastruktur, E2B menang. Kalimat itu terdengar meremehkan tapi itulah kesimpulan sesungguhnya.

Secara spesifik:

  • SDK E2B yang hosted lebih matang. Lebih banyak contoh cookbook, lebih banyak integrasi LangChain/LlamaIndex, rekam jejak yang lebih panjang.
  • Manus, analisis kode Perplexity, Open R1 dari Hugging Face — referensi produksi dalam skala besar sudah ada. CubeSandbox memiliki referensi produksi di dalam Tencent Cloud, yang nyata, tapi studi kasus eksternalnya masih sedang ditulis.
  • Dokumentasi E2B mencakup sandbox desktop, template dari Dockerfile, persistensi file, dan session lifetime 24 jam langsung dari kotak. CubeSandbox lebih minimalis — README dan contohnya mencakup lifecycle inti, bukan aspek-aspek tambahan.
  • Firecracker sendiri sudah dikenal. AWS Lambda berjalan di atasnya. Proyek Firecracker sudah dalam produksi sejak 2018. Stack berbasis RustVMM milik CubeSandbox lebih baru di mata publik, meskipun sudah berjalan di dalam Tencent untuk beberapa waktu.

Jika Anda sedang merilis produk agen v1 dalam kuartal mendatang dan tidak memiliki orang infrastruktur, paket hosted E2B adalah jalur yang lebih mudah. Jam yang tidak dihabiskan berjuang dengan cluster sandbox adalah jam yang dihabiskan untuk agen itu sendiri. Itu sepadan dengan $150/bulan bagi banyak tim.

Kerangka Keputusan untuk Tim Agen

Setelah dua minggu melihat ini, berikut adalah kerangka yang benar-benar akan saya gunakan. Ini adalah salah satu pintasan perbandingan sandbox agen AI yang paling berguna yang saya temukan:

  • Volume di bawah ~50k sandbox-jam/bulan, tidak ada kendala kepatuhan, tidak ada tim infra → E2B hosted. Berhenti membaca.
  • Volume di atas itu, atau residensi data ketat, atau Anda sudah menjalankan Kubernetes/microVM → CubeSandbox self-hosted. Ekonominya berbalik dan Anda punya kemampuan untuk mengoperasikannya.
  • Di antara keduanya → Mulai dengan E2B hosted. Bangun dengan SDK. Ketika tagihan mulai terasa berat atau kepatuhan mulai mengajukan pertanyaan, kompatibilitas SDK berarti migrasi hanya butuh satu perubahan URL. Opsionalitas tersebut adalah properti paling underrated dari keseluruhan perbandingan ini.
  • Anda membutuhkan GPU passthrough untuk inferensi agen di dalam sandbox → Keduanya tidak terlalu bagus. Upstream Firecracker tidak mendukung GPU passthrough secara native, dan CubeSandbox mewarisi kendala serupa. Lihat gVisor atau Daytona untuk workload tersebut.

Framing yang akan saya hindari: “CubeSandbox adalah teknologi yang lebih baik, maka ia menang.” Pilihan sandbox microvm adalah pilihan bentuk produk. Teknologinya kurang lebih setara dalam spesifikasi yang dipublikasikan. Biaya sehari-hari ada di sisi operasional.

FAQ

Ini adalah pertanyaan yang terus saya terima dari rekan tim saat menjalankan evaluasi CubeSandbox vs E2B.

Apakah CubeSandbox adalah pengganti drop-in untuk E2B?

Untuk permukaan SDK E2B, ya — secara by design. Proyek ini memasarkan dirinya sebagai runtime kompatibel E2B di mana Anda mengganti variabel lingkungan. Untuk fitur di luar lifecycle sandbox inti (template dari Dockerfile, sandbox desktop, observabilitas hosted), jawabannya adalah “belum.”

Apa yang sebenarnya ditambahkan self-hosting ke workload?

Host (atau armada) dengan KVM aktif, manajemen kernel/image, monitoring, penyesuaian pool snapshot, kebijakan egress jaringan, dan on-call. Rilis Tencent Cloud mendeskripsikan “deployment satu klik” untuk setup node tunggal dan cluster, tapi menganggap itu identik dengan cluster grade produksi adalah terlalu optimistis. Rencanakan 1–2 minggu setup dan porsi kecil perhatian seseorang secara berulang.

Workload mana yang paling diuntungkan dari sandbox microVM?

Apa pun di mana Anda mengeksekusi kode yang dihasilkan model terhadap input yang tidak dipercaya dalam skala besar. Risiko shared-kernel dari Docker biasa adalah argumen standar menentang container untuk ini — setiap platform agen besar telah beralih dari isolasi shared-kernel karena alasan tersebut. Jika agen Anda hanya menjalankan kode sandbox dari daftar skrip tepercaya yang tetap, Anda mungkin tidak membutuhkan microVM sama sekali.

Apa yang harus tim benchmark pertama kali?

Tiga hal, dalam urutan ini: cold start p99 pada ukuran template aktual Anda; kepadatan sandbox per dolar hardware (untuk self-hosted) atau per dolar tagihan (untuk hosted); mode kegagalan saat burst load. Angka utama — di bawah 60ms vs ~150ms — adalah nyata, tapi menggambarkan rata-rata dalam kondisi yang menguntungkan vendor. Workload Anda tidak akan cocok dengan milik vendor mana pun, yang merupakan satu-satunya alasan untuk melakukan benchmark sama sekali.

Kesimpulan

Debat CubeSandbox vs E2B nyata tapi sedikit salah framing. Bukan soal “sandbox mana yang secara teknis lebih unggul.” Keduanya menggunakan isolasi level hardware, keduanya mempublikasikan angka performa yang kredibel, keduanya Apache 2.0, keduanya menggunakan SDK yang sama. Keputusannya adalah: apakah Anda ingin orang lain menjalankan infrastrukturnya, atau Anda ingin menjalankannya sendiri.

Itu adalah pertanyaan produk, bukan pertanyaan rekayasa. Dan jawaban jujur bagi kebanyakan tim adalah “mulai hosted, jaga migrasi tetap murah.” Kompatibilitas SDK antara kedua proyek adalah hal paling berguna dari seluruh rilis ini — artinya pajak lock-in baru saja mengecil untuk semua orang di infrastruktur agen.

Lebih lanjut akan hadir setelah saya menjalankan CubeSandbox di bawah beban nyata. Kedua proyek diperbarui dengan cepat — perbandingan ini tidak akan bertahan sebaik teknologi yang mendasarinya.

Postingan Sebelumnya: