Gemini 3.5 Flash Diluncurkan — Model Tier Flash Kini Memimpin Tier Pro di Benchmark Agen

Gemini 3.5 Flash resmi GA di I/O 2026 dengan thinking aktif secara default, harga $1,50/$9 per 1 juta token, dan profil benchmark yang mengalahkan Claude Opus 4.7 dan GPT-5.5 di MCP Atlas serta sebagian besar suite agen. Berikut area di mana Flash unggul, di mana ia kalah, dan cara men-deploy-nya.

By WaveSpeedAI 8 min read

Google merilis Gemini 3.5 Flash ke ketersediaan umum pada 19 Mei 2026, di hari yang sama saat diumumkan di I/O — mencakup Gemini API, AI Studio, Antigravity, Vertex AI, aplikasi Gemini, dan AI Mode di Search. ID model-nya adalah gemini-3.5-flash (tanpa sufiks preview), snapshot Mei 2026 adalah 3.5-flash-05-2026, dan harganya adalah $1,50 input / $9,00 output per 1 juta token dengan $0,15/1 juta untuk input yang di-cache.

Angka utamanya ada di sisi benchmark: model tingkat Flash kini mengalahkan model frontier tingkat Pro di sebagian besar rangkaian uji agen. Claude Opus 4.7 dan GPT-5.5 — keduanya kelas Pro, keduanya jauh lebih mahal — kalah dari Flash pada MCP Atlas, Toolathlon, dan Finance Agent v2. Untuk coding hasilnya lebih bervariasi, dan ada kategori tertentu di mana Flash masih kalah. Berikut adalah gambaran lengkapnya, analisis jujur tentang trade-off, dan di mana harus menggunakannya.

Yang dirilis, dalam satu tabel

DetailNilai
ID Modelgemini-3.5-flash
Snapshot3.5-flash-05-2026
Harga input$1,50/1 juta token
Harga output$9,00/1 juta token
Input yang di-cache$0,15/1 juta token
Modalitas inputTeks + gambar + audio + video
Modalitas outputTeks
Jendela konteks1.048.576 input / 65.536 output
ThinkingThinking dinamis aktif secara default
Penggunaan toolPemanggilan fungsi, output terstruktur, search-as-tool, eksekusi kode
KetersediaanGemini API, AI Studio, Antigravity, Vertex AI, aplikasi Gemini, AI Mode di Search
Klaim kecepatan~4× token output/detik vs rekan frontier

Detail “thinking aktif secara default” lebih penting dari yang terlihat di lembar spesifikasi. Ini bukan parameter thinking_budget yang Anda atur per permintaan — Flash memiliki penalaran dinamis yang sudah tertanam. Model memutuskan seberapa banyak berpikir berdasarkan prompt. Untuk kode produksi yang memperhitungkan anggaran latensi, ini adalah bentuk deployment yang berbeda dari toggle extended-thinking Sonnet 4.6 atau parameter reasoning GPT-5.5.

Benchmark agen: Flash vs tingkat Pro

Data lintas vendor adalah di mana posisi Flash menjadi jelas. Mengacu pada perbandingan peluncuran dalam analisis coding agentik Digital Applied dan analisis peluncuran LLM Stats:

BenchmarkGemini 3.5 FlashClaude Opus 4.7GPT-5.5Pemenang
MCP Atlas83,6%79,1%75,3%Flash (+4,5 / +8,3)
Toolathlon56,5%Flash
Finance Agent v257,9%Flash
CharXiv Reasoning84,2%Flash
MMMU-Pro83,6%Flash
SWE-Bench Pro64,3%Opus 4.7
Terminal-Bench 2.176,2%78,2%GPT-5.5 (+2,0)
OSWorld-Verified78,7%GPT-5.5
Blueprint-Bench 236,2%GPT-5.5
GDPval-AA1656 Elo1769 EloGPT-5.5 (+113)
ARC-AGI-272,1%84,6%GPT-5.5 (+12,5)

Tiga kesimpulan dari data ini:

Untuk orkestrasi agen, Flash kini menjadi pilihan pertama yang harus dicapai. MCP Atlas mengukur alur kerja multi-langkah berbasis tool — kasus penggunaan yang paling banyak diterapkan oleh tumpukan agen enterprise. Mengalahkan Opus sebesar 4,5 poin pada benchmark ini dengan harga Flash adalah pergeseran kemampuan-per-dolar yang signifikan. Toolathlon dan Finance Agent v2 memperkuat pola ini: di mana pun pekerjaan bersifat agentik (rencanakan, panggil tool, integrasikan hasil, iterasi), Flash memimpin.

Untuk coding gaya terminal, GPT-5.5 masih menang tipis. Selisih 2 poin pada Terminal-Bench 2.1 tidak bersifat menentukan — tetapi dikombinasikan dengan keunggulan GPT-5.5 pada GDPval-AA (113 Elo) dan OSWorld-Verified, kesimpulannya adalah jika alur kerja Anda adalah “beri model terminal dan tugas,” GPT-5.5 masih pilihan yang tepat. Flash mempersempit selisih; tapi belum menutup keunggulan.

Untuk penalaran abstrak yang sulit, Flash memiliki kelemahan nyata. ARC-AGI-2 adalah sinyal paling jelas di sini — Flash tertinggal 12,5 poin dari GPT-5.5. Ini konsisten dengan apa yang kami catat kemarin tentang Flash yang mengalami regresi pada Humanity’s Last Exam dan pengambilan konteks panjang dibandingkan Gemini 3.1 Pro sebelumnya. Arsitektur Flash jelas menukar kedalaman penalaran demi kecepatan dan biaya. Gemini 3.5 Pro yang akan hadir pada Juni kemungkinan adalah jawaban atas trade-off tersebut.

Harga dalam konteks

ModelInput ($/1 juta)Output ($/1 juta)Rasio outputCatatan
Gemini 3.5 Flash$1,50$9,006,0×Input yang di-cache $0,15
Claude Sonnet 4.6$3,00$15,005,0×Konteks 1 juta flat
Claude Opus 4.7$5,00$25,005,0×Penalaran tingkat Pro
GPT-5.5$1,25$10,008,0×Input termurah
Gemini 3.1 Pro (sebelumnya)$2,50$15,006,0×40% lebih mahal dari Flash

Flash berada di bawah Sonnet 4.6 pada kedua aspek sekaligus mengungguli Opus 4.7 pada benchmark agen. Itulah kisah harga yang perlu dipahami para pengembang: default orkestrasi agen baru saja menjadi 50% lebih murah pada input dan 40% lebih murah pada output, dengan profil benchmark yang jauh lebih baik dibandingkan default sebelumnya pada tingkat yang sama.

Harga input yang di-cache $0,15/1 juta adalah yang mengubah perhitungan secara dramatis untuk alur kerja berbasis RAG atau memori yang berat. Jika Anda memasukkan 500 ribu token konteks yang di-cache per permintaan, harga tingkat cache Flash kira-kira 10% dari tarif input standar Sonnet 4.6. Itu bukan perbedaan margin satu persentase poin; itu kelas biaya yang berbeda.

Di mana Flash cocok dalam produksi saat ini

Panduan deployment konkret, berdasarkan data benchmark:

Gunakan Flash untuk:

  • Agen terorkestra MCP / berbasis tool. Di sinilah Flash benar-benar memimpin, dan keunggulan harga paling besar.
  • Alur kerja API volume tinggi di mana biaya per unit lebih penting daripada kecerdasan puncak: transformasi data, klasifikasi, ekstraksi terstruktur, pemrosesan batch.
  • Pipeline multi-modal yang menerima input gambar/audio/video dan menghasilkan teks — Flash mendukung keempat modalitas input secara native.
  • Alur kerja berat cache (RAG konteks panjang, memori percakapan, pencarian dokumen) — input yang di-cache $0,15/1 juta adalah yang termurah di tingkat frontier.

Jangan gunakan Flash untuk (sementara ini):

  • Penalaran abstrak yang sulit — masalah bergaya ARC-AGI-2. GPT-5.5 adalah pilihannya.
  • Pengambilan konteks panjang di 128 ribu+ — Flash mengalami regresi dibandingkan Gemini 3.1 Pro sebelumnya di sini. Tunggu 3.5 Pro pada Juni.
  • Agen coding terminal murni — GPT-5.5 masih unggul 2 poin pada Terminal-Bench, yang terakumulasi pada alur kerja coding multi-langkah.
  • Beban kerja di mana Anda perlu mengontrol anggaran thinking per-permintaan — Flash memiliki thinking yang tertanam, bukan diekspos sebagai parameter.

Apa yang berubah hari ini yang kemarin belum berlaku

Tiga hal yang benar-benar bergeser dengan peluncuran Flash:

  1. Model agen default bukan lagi tingkat Pro. “Gunakan model terbaik yang mampu Anda beli” berhenti menjadi saran yang baik untuk alur kerja agen. Untuk tugas terorkestra MCP, Flash mengalahkan model Pro dari kompetitor dan lebih murah.
  2. Keluarga teks Gemini berhasil mengejar kemampuan agentik. Sebelum peluncuran, framing dominan adalah “Gemini tertinggal dalam coding/agen.” Setelah peluncuran, Flash memimpin sebagian besar rangkaian uji agen dan kompetitif dalam coding. Narasinya perlu diperbarui.
  3. Kesenjangan penalaran semakin besar, bukan semakin kecil. Regresi Flash pada ARC-AGI-2 dan Humanity’s Last Exam nyata adanya. Peluncuran Pro pada Juni kini menjadi peristiwa penting untuk menentukan apakah Gemini menutup kesenjangan spesifik tersebut.

Jalur deployment

Bentuk deployment paling bersih saat ini bergantung pada platform yang Anda gunakan:

  • API produksi langsung via Google: gemini-3.5-flash melalui Vertex AI atau AI Studio. Keduanya mengekspos model yang sama.
  • Di Antigravity (platform coding bergaya IDE milik Google): penggantian model default dari gemini-3.1-pro ke gemini-3.5-flash adalah langkah tepat untuk sebagian besar alur kerja.
  • Dalam router multi-vendor: tambahkan gemini-3.5-flash ke kebijakan orkestrasi agen Anda. Untuk jalur MCP / berbasis tool yang berat, arahkan ke Flash terlebih dahulu; fallback ke GPT-5.5 untuk coding terminal dan penalaran bergaya ARC.
  • Di WaveSpeedAI: endpoint LLM WaveSpeedAI memberi Anda akses kompatibel OpenAI ke model teks frontier terkini di balik satu kunci API. Saat Gemini 3.5 Flash diintegrasikan, Anda dapat melakukan A/B test melawan sisa lineup model Anda di bawah permukaan yang sama.

Yang perlu dipantau pada Juni

Dua hal yang akan terselesaikan dalam empat minggu ke depan:

  1. Gemini 3.5 Pro diluncurkan. Ini adalah jawaban apakah regresi Flash pada penalaran dan konteks panjang akan diperbaiki. Jika Pro hadir di atas 3.1 Pro pada Humanity’s Last Exam dan menyamai Flash pada Terminal-Bench, seluruh keluarga Gemini 3.5 menjadi default baru. Jika Pro hanya menambal regresi dengan biaya lebih tinggi, lineup-nya tetap terbifurkasi.
  2. Replikasi benchmark agen independen. Angka MCP Atlas / Toolathlon / Finance Agent Google adalah pihak pertama. Pertanyaan menariknya adalah apakah rangkaian benchmark agen pihak ketiga (LangChain Bench, evaluasi MetaGPT, dll.) mereproduksi keunggulan tersebut. Pantau studi replikasi dalam dua hingga tiga minggu ke depan.

Hingga saat itu: Flash sudah diluncurkan, biaya orkestrasi agen baru saja turun, dan pertanyaan yang ada di benak sebagian besar pengembang minggu ini adalah apakah perlu memigrasikan jalur agen dari Opus 4.7 ke gemini-3.5-flash hari ini, atau menunggu 3.5 Pro.

Sumber: LLM Stats tentang Gemini 3.5 Flash, Perbandingan coding agentik Digital Applied, Seeking Alpha tentang kepemimpinan benchmark agentik, Ulasan Gemini 3.5 Flash DataCamp, Catatan rilis Vertex AI.