Gemini 3.5 Pro Hadir Bulan Depan — Apa yang Sudah Diungkap oleh Rilis Flash
Google merilis Gemini 3.5 Flash di I/O 2026 dan menunda Pro hingga Juni. Flash sudah melampaui Gemini 3.1 Pro dalam benchmark coding dan agentic, namun mengalami regresi pada penalaran kompleks — itulah celah yang perlu ditutup oleh Pro. Inilah yang sudah diketahui, yang belum, dan cara merencanakannya.
Sehari setelah keynote I/O 2026, pertanyaan pra-keynote apakah Google akan merilis “Gemini 3.5” atau “Gemini 4.0” telah terjawab. Jawabannya adalah 3.5. Namun bagian yang lebih menarik adalah apa yang sebenarnya diluncurkan Google dan apa yang ditahannya: Gemini 3.5 Flash telah dirilis ke ketersediaan umum pada 19 Mei; Gemini 3.5 Pro “akan hadir bulan depan.” Kalimat persis Sundar Pichai di panggung: “Beri kami waktu hingga bulan depan untuk menyampaikannya kepada Anda.”
Penonton dilaporkan mengeluh. Respons yang wajar, namun kesenjangan itu juga lebih menarik dari yang terlihat. Flash sudah melampaui Gemini 3.1 Pro pada benchmark yang paling penting bagi para pengembang — dan mengalami regresi pada serangkaian benchmark penalaran dan konteks panjang tertentu. Pro yang dirilis sebulan kemudian hampir pasti merupakan jawaban Google atas regresi tersebut. Berikut ini apa yang diungkap peluncuran Flash tentang apa yang sebenarnya akan hadir di Pro.
Terkonfirmasi: apa yang dikatakan Google tentang 3.5 Pro
Pernyataan Google di panggung tentang Pro sangat minim. Kumpulan fakta yang terkonfirmasi secara lengkap:
| Detail | Sumber | Status |
|---|---|---|
| Diluncurkan “bulan depan” (Juni 2026) | Keynote Pichai | Terkonfirmasi |
| Saat ini dalam pengujian internal | Keynote Pichai | Terkonfirmasi |
| Akan berbagi fokus coding/agentic Flash | Pesan I/O | Terkonfirmasi |
| Angka benchmark spesifik | — | Tidak diungkapkan |
| Harga | — | Tidak diungkapkan |
| Jendela konteks | — | Tidak diungkapkan |
| ID model | — | Tidak diungkapkan |
Hanya itu. Tidak ada benchmark, tidak ada harga, tidak ada kartu model. Rilis Pro hanyalah satu pernyataan niat dan satu linimasa.
Apa yang diungkap data Flash tentang Pro
Di sinilah hal ini menjadi berguna. Gemini 3.5 Flash diluncurkan pada hari yang sama dengan benchmark lengkap, dan perbandingan terhadap Gemini 3.1 Pro generasi sebelumnya mengungkap dengan tepat di mana generasi baru ini kuat dan di mana kelemahannya.
Di mana Flash mengalahkan Gemini 3.1 Pro
| Benchmark | 3.5 Flash | 3.1 Pro | Delta |
|---|---|---|---|
| Terminal-Bench 2.1 | 76,2% | 70,3% | +5,9 |
| MCP Atlas | 83,6% | 78,2% | +5,4 |
| Finance Agent v2 | 57,9% | 43,0% | +14,9 |
| GDPval-AA | 1656 Elo | 1314 Elo | +342 |
Ini semua adalah benchmark coding dan agentic — kategori di mana Claude selama ini menjadi pilihan utama pengembang. Flash kini lebih dekat ke Claude pada kategori ini daripada tier Pro sebelumnya. Ini adalah perubahan produk yang signifikan, bukan perubahan marginal.
Di mana Flash mengalami regresi vs Gemini 3.1 Pro
| Benchmark | 3.5 Flash | 3.1 Pro | Delta |
|---|---|---|---|
| Humanity’s Last Exam | 40,2% | 44,4% | −4,2 |
| ARC-AGI-2 | 72,1% | 77,1% | −5,0 |
| Konteks panjang (128K) | 77,3% | 84,9% | −7,6 |
Ketiga ini adalah benchmark tepat di mana Anda akan mengharapkan tier Pro untuk membedakan diri. Penalaran mendalam. Pencocokan pola abstrak. Pengambilan konteks panjang. Dua yang pertama menekan kedalaman; yang ketiga menekan recall pada skala besar. Flash yang turun 4-8 poin pada masing-masing menunjukkan bahwa arsitektur Flash membuat trade-off yang disengaja untuk mencapai angka kecepatan dan biaya yang diinginkan.
Peluncuran 3.5 Pro pada Juni hampir pasti merupakan jawaban Google atas daftar persis ini. Alasan keberadaan Pro adalah untuk memulihkan keunggulan penalaran dan konteks panjang yang dikorbankan Flash. Jika Pro mendarat di atas 3.1 Pro pada Humanity’s Last Exam dan menyamai Flash pada Terminal-Bench, itu adalah model frontier produksi terkuat. Jika hanya memperbaiki regresi dengan mengorbankan kecepatan agentic, itu adalah positioning yang berbeda.
Apa yang diimplikasikan harga Flash untuk Pro
Flash diluncurkan dengan harga $1,50 input / $9,00 output per 1 juta token pada tier standar — 40% lebih murah dari Gemini 3.1 Pro pada kedua sisi. Input yang di-cache adalah $0,15/1 juta, yang merupakan angka utama untuk beban kerja berat pengambilan data.
Bacaan langsung tentang harga Pro:
- Jika Pro diluncurkan dengan harga Gemini 3.1 Pro atau di atasnya (~$2,50/$15/1 juta atau lebih tinggi), itu menandakan bahwa Pro dimaksudkan sebagai tier penalaran premium, bukan pengganti Flash.
- Jika Pro diluncurkan di bawah harga 3.1 Pro tetapi di atas Flash, itu diposisikan sebagai “Flash yang lebih cerdas” — permukaan produk yang sama, kemampuan lebih tinggi, premium yang sederhana.
- Jika Pro menyamai harga Flash, itu akan tidak biasa dan akan menempatkan Flash pada posisi canggung yang sama seperti yang saat ini dialami Seedance 2.0 Fast (lihat pratinjau Seedance 2.1 / Mini kami untuk masalah tabrakan tier yang analogis).
Opsi pertama adalah yang paling mungkin. Google membuat taruhan struktural bahwa pelanggan akan membayar untuk pemisahan tier penalaran. Keluhan penonton menunjukkan pasar berpikir Flash sudah cukup baik dan Pro tidak diperlukan; kita tidak akan tahu apakah pasar benar sampai para pengembang menjalankan evaluasi mereka sendiri terhadap kartu model Juni.
Hal lain yang perlu diperhatikan pada Juni
Ketika kartu model Pro dirilis, empat hal spesifik ini penting:
- Apakah Pro menyamai Flash pada coding (Terminal-Bench, MCP Atlas)? Jika ya, Pro adalah superset yang ketat. Jika tidak, Anda akan menjalankan dua endpoint — Flash untuk agen, Pro untuk penalaran — dan biaya integrasi meningkat.
- Angka konteks panjang. Jika Pro memulihkan keunggulan Gemini 3.1 Pro pada 128K dan memperluas ke jendela konteks 1 juta token yang sama yang dikirimkan Flash, itulah sinyal paling relevan untuk produksi. Beban kerja yang berat dengan RAG harus merencanakan migrasi mereka berdasarkan angka ini secara khusus.
- Klaim multimodal. Flash diluncurkan dengan pemahaman gambar/video yang sama seperti lini 3.0. Jika Pro hadir dengan integrasi generasi video Gemini Omni (masih berupa rumor per 20 Mei), itu adalah kisah unifikasi yang belum bisa diceritakan Google.
- Apakah Pro adalah model thinking. Model penalaran Google terbaru telah hadir dengan mode “thinking” opsional yang menukar latensi untuk akurasi. Jika 3.5 Pro secara default mengaktifkan thinking atau mengekspos kontrol per permintaan, itu secara material memengaruhi bagaimana Anda menggunakannya dalam produksi.
Apa yang harus dilakukan bulan ini
Sementara Pro dalam pengujian internal, ada tiga langkah konkret:
- Jalankan evaluasi Anda terhadap 3.5 Flash minggu ini. Model ini sudah live di Gemini API, Google AI Studio, Vertex, Antigravity, dan aplikasi Gemini dengan ID model
gemini-3.5-flash. Jika Flash sudah mencakup beban kerja Anda, Anda mungkin tidak memerlukan Pro sama sekali. - Untuk beban kerja konteks panjang atau penalaran mendalam, tetap gunakan Gemini 3.1 Pro untuk saat ini. Jangan bermigrasi ke Flash hanya karena itu model terbaru — regresi 7,6 poin pada 128K itu nyata. Tunggu Pro.
- Siapkan uji A/B Juni Anda sekarang. Tentukan evaluasi perbandingan Flash → Pro sebelum Pro hadir. Godaan untuk beralih pada hari peluncuran itu nyata; nilai benchmark yang Anda pertahankan dan sudah Anda jalankan terhadap Flash dan 3.1 Pro jauh lebih nyata.
Sampai Pro Hadir
Untuk beban kerja sisi LLM, endpoint LLM WaveSpeedAI memberi Anda akses yang kompatibel dengan OpenAI ke model teks frontier saat ini di balik satu API key. Ketika Gemini 3.5 Pro hadir pada Juni, harapkan untuk membandingkannya di bawah endpoint yang sama dalam beberapa hari — bersama Flash dan lini teks frontier lainnya.
