Kebocoran Nano Banana 2: Pandangan Sekilas Model AI Gambar Generasi Berikutnya Google

Kebocoran Nano Banana 2: Pandangan Sekilas Model AI Gambar Generasi Berikutnya Google

Nano Banana 2 Leak: Sekilas Pandang Model AI Gambar Generasi Berikutnya dari Google

Beberapa bulan lalu, Nano Banana dikenal karena menciptakan figur AI yang sangat realistis dengan estetika gaya kolektibel. Sekarang, ia kembali menjadi sorotan — kali ini karena alasan yang tidak terduga.

Pada 10 November, sebuah pratinjau awal dari model gambar generasi berikutnya Google, Nano Banana 2 (NB 2.0), secara singkat muncul di platform pihak ketiga Media.io. Build tersebut dihapus dalam hitungan jam, namun itu cukup lama untuk screenshot dan hasil pengujian tersebar luas secara online.

Kebocoran berdurasi pendek ini telah memicu diskusi intensif di seluruh komunitas AI. Jadi apa sebenarnya yang orang lihat, dan seberapa jauh Nano Banana 2 mendorong batas-batas pencitraan generatif?

Kesan Pertama dari Kebocoran

Pengguna yang berhasil menguji model sebelum diambil berbagi serangkaian contoh yang mencolok. Meskipun tidak resmi, hasil awal ini menunjukkan model dengan pemahaman yang jauh lebih mendalam tentang cahaya, material, dan konteks.

”AI yang Memahami Fisika”

Dua tolok ukur awal, yang secara informal dijuluki “Wine Glass Test” dan “Glass Burger Challenge,” menunjukkan seberapa presisi Nano Banana 2 dapat menangani transparansi dan refraksi.

Dalam contoh gelas anggur, sudut refraksi cahaya melalui gelas dan cairan dilaporkan menyimpang kurang dari tiga derajat — tingkat realisme fisik yang mengesankan untuk model generatif. Pengujian “Glass Burger” mendorong batas-batas serupa, menggabungkan transparansi, refleksi, dan tekstur permukaan realistis dalam satu gambar. Demo lainnya, “Pink Ocean,” menampilkan difusi warna akurat dan refleksi cahaya di seluruh permukaan air bergaya.

Benchmark gelas anggur dan jam
Uji gelas anggur dan jam
Benchmark burger kaca
Burger kaca
Benchmark Pink Ocean
Pink Ocean

Generasi Lebih Cepat dan Teks Kualitas Tinggi

Kecepatan tampaknya menjadi salah satu kekuatan model: adegan 4K yang kompleks dilaporkan dirender dalam sekitar 10 detik.

Lebih mengejutkan lagi adalah akurasi rendering teks. Penguji awal mengklaim Nano Banana 2 dapat menghasilkan mockup UI lengkap, lengkap dengan menu yang dapat dibaca, URL, dan bahkan overlay stempel waktu — tugas-tugas yang secara tradisional menantang model berbasis difusi.

Precision Comic Translation
Terjemahan Komik Presisi
Antarmuka browser yang dihasilkan AI
Antarmuka browser yang dihasilkan AI
Potret manusia yang dihasilkan AI dan rekaman pengawasan
Potret manusia yang dihasilkan AI dan rekaman pengawasan

Penalaran Logis dan Matematis

Mungkin kemampuan paling menarik yang ditunjukkan dalam pengujian yang bocor adalah penalaran visual. Diberikan foto masalah matematika tulisan tangan, Nano Banana 2 tidak hanya dapat menginterpretasi pertanyaan tetapi juga menghasilkan penurunan langkah demi langkah seolah-olah ditulis di papan tulis digital.

Demo penalaran matematika visual
Demo penalaran matematika visual

Ini mengisyaratkan pemahaman multimodal yang lebih terintegrasi — kemampuan untuk menggabungkan penalaran teks, matematika, dan gambar dalam satu keluaran.

Membandingkan Nano Banana 1 dan 2: Dari Realisme Visual ke Koherensi Kognitif

Untuk memahami skala peningkatan, mari kita lihat perbandingan berdampingan antara Nano Banana (V1) dan Nano Banana 2 (V2) di beberapa kategori.

Kesetiaan Prompt

Prompt: “Buat gadis itu berbalik.”

Perbandingan kesetiaan prompt
(Dari kiri ke kanan) Gambar asli, Nano Banana, Nano Banana 2

Meskipun model pertama dapat menyesuaikan pose, sering kali kehilangan gaya seni asli. Sebaliknya, Nano Banana 2 mempertahankan estetika cel-shaded dan kerja garis sumber sambil melakukan transformasi dengan akurat. Hasilnya terasa lebih seperti suntingan sejati daripada rekreasi.

Konsistensi Fisik

Prompt: “Lulus uji benchmark gelas jam & anggur dengan sempurna — 11:15 pada jam, gelas anggur penuh hingga tepi.”

Perbandingan konsistensi fisik
(Dari kiri ke kanan) Nano Banana, Nano Banana 2

V2 mengikuti prompt hampir secara harfiah, dengan pencahayaan, waktu, dan refleksi yang benar. V1 menangkap adegan umum tetapi melewatkan detail kunci — tanda pemahaman adegan model yang lebih terbatas.

Rendering Teks dan Simulasi UI

Upaya UI Nano Banana V1
Nano Banana (V1)
Upaya UI Nano Banana V2
Nano Banana 2 (V2)

Ketika diminta untuk menghasilkan tangkapan layar desktop Windows 11 yang menampilkan halaman web Gemini 3 DeepMind, Nano Banana 2 menghasilkan tata letak yang hampir tidak dapat dibedakan dari tangkapan layar browser sebenarnya. Teks, ikon, dan elemen antarmuka semuanya tajam dan mudah dibaca.

Sebaliknya, V1 mengrender prompt yang sama dengan teks yang terdistorsi atau tidak dapat dibaca — keterbatasan umum dari model difusi sebelumnya.

Penalaran Visual

Prompt: “Selesaikan pertanyaan ini dan tunjukkan penurunan langkah demi langkah.”

Perbandingan penalaran visual
(Dari kiri ke kanan) Gambar asli, Nano Banana, Nano Banana 2

Di sini, peningkatan melampaui kualitas visual. Solusi V1 tampak logis tetapi secara matematis salah karena kesalahan transkripsi. V2, bagaimanapun, dengan benar menginterpretasi masalah dan menurunkan jawaban yang benar — sekilas penalaran simbolis asli dalam model visual.

WaveSpeedAI Mengkonfirmasi Integrasi

Pratinjau yang bocor di Media.io sejak itu secara resmi ditutup, tetapi rilis model di masa depan sudah di depan mata.

WaveSpeedAI telah mengkonfirmasi rencana untuk mengintegrasikan Nano Banana 2 setelah tersedia untuk publik. Akses awal akan disediakan melalui program daftar putih untuk pengujian dan umpan balik.

Sementara itu, pengguna masih dapat menjelajahi Nano Banana (V1) langsung melalui platform WaveSpeedAI — cara yang baik untuk menghargai seberapa jauh model telah berkembang sebelum debut resmi V2.

Pemikiran Akhir

Jika hasil kebocoran autentik, Nano Banana 2 mewakili lebih dari sekadar peningkatan inkremental — ini menunjuk ke fase baru pemodelan gambar AI di mana penalaran visual, simulasi fisika, dan pemahaman multimodal berkumpul.

Apakah rilis akhir cocok dengan kesan awal ini tetap harus dilihat, tetapi satu hal jelas: generasi berikutnya dari sintesis gambar AI tiba lebih cepat, dan lebih pintar, daripada yang diharapkan siapa pun.