← Blog

Demo Gemini Omni Baru Saja Bocor — Ini yang Sebenarnya Dilakukan Model Video Terbaru Google

Delapan hari setelah kebocoran string UI asli, video sampel pertama Gemini Omni akhirnya muncul. Unggul dalam pengeditan berbasis chat, tertinggal dari Seedance 2.0 dalam hal fidelitas mentah, dan menghabiskan ~43% kuota harian AI Pro per klip. Inilah penilaian jujur seminggu sebelum I/O 2026.

8 min read

Ketika kami menulis tentang kebocoran Omni pertama pada 3 Mei, seluruh cerita hanya berupa satu string antarmuka pengguna. Delapan hari kemudian, gambaran keseluruhannya telah jauh lebih jelas. Aplikasi mobile Gemini memunculkan video sampel nyata yang dihasilkan oleh model tersebut, ID model internal bocor (bard_eac_video_generation_omni), dan cukup banyak kesan langsung yang kini telah dipublikasikan untuk membuat beberapa penilaian awal.

Singkatnya: Omni nyata, hampir pasti merupakan model baru dan bukan sekadar pergantian nama Veo 3.1, dan pada dimensi yang penting bagi para pengembang produk video AI — fidelitas, pengeditan, biaya — ia memiliki kekuatan dan kelemahan yang sangat berbeda dibanding pemimpin papan peringkat. Tujuh hari sebelum Google I/O 2026 (19–20 Mei), inilah yang kini diketahui.

Apa yang muncul minggu ini

Pada 11 Mei 2026, TestingCatalog dan pengguna X @Thomas16937378 mengeluarkan sampel terbaru dari alur pembuatan video di aplikasi mobile Gemini. Teks kartu model berubah dari placeholder (“Powered by Omni”) menjadi deskripsi produk lengkap:

Create with Gemini Omni: meet our new video model. Remix your videos, edit directly in chat, try a template, and more.

Tiga detail konkret menyertainya:

  • ID model internal: bard_eac_video_generation_omni. “Bard EAC” adalah namespace internal aplikasi Gemini untuk fitur eksperimental; sufiks _omni mengonfirmasi bahwa ini diperlakukan sebagai model tersendiri, bukan varian Veo.
  • Batas 10 detik untuk klip yang dihasilkan pada tingkat pratinjau saat ini. Veo 3.1 memiliki batas 8 detik secara native dan 16 detik dengan extend; Omni saat ini berada di antara keduanya tanpa jalur extend yang terlihat.
  • Tab batas penggunaan baru di pengaturan Gemini, menunjukkan peluncuran berbasis kredit terukur, bukan kuota langganan bulanan — konsisten dengan cara Google merilis fitur agentic berbiaya tinggi (Deep Research, Notebook Plus).

Ini adalah peningkatan kualitas bukti yang signifikan. Kebocoran 3 Mei hanya berupa teks antarmuka. Ini adalah teks antarmuka + endpoint yang berfungsi + output yang dapat diamati + permukaan penagihan.

Dua video sampel yang telah dilihat orang

Kedua sampel berasal dari aplikasi Gemini, keduanya dari pengguna dengan akses AI Pro yang dapat menggunakan model sebelum dugaan rollback. Layak dijelaskan secara rinci karena keduanya menunjukkan garis keturunan model mana Omni berasal.

Sampel 1 — “Seorang profesor menulis bukti matematika untuk identitas trigonometri di papan tulis tradisional.” Para peninjau menyebut rendering teks “ditangani dengan sangat baik” — persamaan kapur terbaca dengan jelas dan terlihat masuk akal secara matematis, bukan kekacauan simbol yang dihasilkan model video sebelumnya. Gerakan tangan dan lengan terlihat alami. Ulasan chromeunboxed tetap mencatat “tanda-tanda AI yang jelas pada output akhir” tanpa merinci lebih lanjut — kemungkinan kombinasi dari mikrosakkade yang tidak natural, artefak mesh tangan, dan geometri kapur yang sedikit bergeser.

Sampel 2 — “Dua pria makan spageti di restoran mewah.” Digambarkan sebagai “cukup realistis.” Uji penggulung pasta telah menjadi tolok ukur informal selama setahun karena menguji segala hal yang bisa salah dalam video ruang laten: kontak peralatan-makanan, gerakan seperti cairan, dan identitas wajah yang konsisten melalui oklusi. Omni menanganinya cukup baik untuk dikomentari, namun tetap dengan catatan bahwa standar “layak” telah meningkat tahun ini — Seedance 2.0 dan Wan 2.7 keduanya melewati batasan tersebut secara andal.

Dua sampel bukanlah tolok ukur. Namun dua sampel dalam dua rezim kesulitan berbeda (teks dalam bingkai dan fisika kontak), keduanya dengan peninjau yang mencatat hasil kuat-namun-tidak-sempurna, sudah cukup untuk menempatkan Omni dalam tingkatan yang sama dengan Veo 3.1 — tidak di atasnya dalam fidelitas mentah, dan jelas di bawah Seedance 2.0.

Di mana Omni sebenarnya unggul: pengeditan berbasis obrolan

Hasil menarik dari liputan langsung minggu ini adalah bahwa kemampuan unggulan Omni bukan pada kualitas generasi. Melainkan pada pengeditan. Secara spesifik:

  • Penghapusan watermark dari klip input, dilakukan melalui instruksi obrolan bahasa alami
  • Penggantian objek dalam sebuah adegan (“tukar mobil merah dengan yang biru”)
  • Penulisan ulang adegan melalui percakapan bergilir — jelaskan apa yang harus berubah, model mengembalikan versi yang telah diedit, ulangi

Ini adalah area permukaan yang berbeda secara bermakna dari apa yang saat ini ditawarkan Seedance 2.0 Video-Edit atau Wan 2.7 Edit. Model-model tersebut sangat baik dalam pengeditan instruksi gaya perintah (“hapus earphone,” “ubah mantel wanita itu menjadi merah”) tetapi tidak mempertahankan percakapan pengeditan multi-giliran terhadap satu klip sumber. Analogi terdekat saat ini adalah alur pengeditan bahasa alami Kling Omni Video O1, yang kami tulis secara rinci ketika diluncurkan.

Jika Omni memang diluncurkan sebagai editor video berbasis obrolan — bukan sekadar endpoint teks-ke-video lainnya — itulah proposisi nilai uniknya. Google memiliki stack LLM untuk membuat koreksi multi-giliran bekerja secara native dengan cara yang tidak dimiliki sebagian besar vendor model video murni.

Cerita biaya

Titik data paling mencolok: satu penguji melaporkan bahwa dua prompt video mengonsumsi 86% kuota harian AI Pro mereka. Itu sekitar 43% hari Pro per klip — profil biaya yang sejajar dengan model video terdepan, bukan generasi gambar tingkat Flash.

Beberapa implikasinya:

  1. Model pratinjau yang berjalan di aplikasi Gemini hampir pasti merupakan tingkat Pro/penuh, bukan Flash. TestingCatalog memperkirakan varian Flash akan hadir berbarengan, tetapi sampel yang telah kita lihat bukan darinya.
  2. Pembakaran kredit per klip pada laju ini setara dengan sekitar $0,30–$0,50 per klip 10 detik dalam ekuivalensi ritel, yang kompetitif dengan Veo 3.1 ($0,50/s pada harga pratinjau) tetapi lebih mahal dari Seedance 2.0 Fast.
  3. Google hampir pasti akan memperkenalkan tingkatan penggunaan eksplisit pada pengumuman I/O — tab batas penggunaan baru adalah pertandanya. Perkirakan tingkatan biaya flash untuk pengguna kasual dan tingkatan bayar-sesuai-penggunaan terukur di AI Studio untuk para pengembang.

Apa yang sekarang kami yakini tentang Omni

Tiga minggu lalu ada tiga kemungkinan penafsiran: pergantian nama Veo, model video Gemini terpisah, atau model omni-modalitas penuh. Bukti 11 Mei mempersempit itu:

  • ID model terpisah (sufiks _omni, bukan _veo) mengesampingkan pergantian nama Veo langsung. Google biasanya tidak mengganti nama endpoint model yang ada selama peluncuran pratinjau.
  • Framing produk yang mengutamakan pengeditan — “remix, edit directly in chat” — bukan bahasa yang digunakan Google untuk Veo, yang selalu dipitchkan sebagai teks-ke-video + extend. Ini lebih terbaca sebagai model terpisah dengan tujuan pelatihan yang berbeda.
  • Tidak ada bukti output gambar dalam sampel yang bocor mana pun. Jika ini adalah model omni-modalitas terpadu yang namanya siratkan, Anda akan mengharapkan melihat generasi gambar muncul dari endpoint yang sama. Sejauh ini, setiap kebocoran hanya berupa video.

Penafsiran paling mungkin saat ini: Omni adalah model video terlatih Gemini baru, berada di samping Veo daripada menggantikannya, dengan posisi produk yang mengutamakan pengeditan. Nano Banana menunjukkan Google bersedia memisahkan merek dalam modalitas yang sama (teks-ke-gambar berjalan di bawah nama Nano Banana dan Gemini 3 Flash Image). Koeksistensi Omni-dan-Veo memparalelkan pola tersebut.

Impian omni-modalitas terpadu penuh yang namanya siratkan kemungkinan masih merupakan generasi masa depan. Yang akan diluncurkan minggu depan — jika diluncurkan minggu depan — adalah editor video kompetitif dengan permukaan obrolan native LLM Google yang terpasang.

Apa yang berubah untuk evaluasi

Jika Anda membangun sesuatu yang menyentuh video AI, tiga hal berubah dalam dua minggu ke depan:

  1. Tambahkan tolok ukur pengeditan ke suite eval Anda. Sebagian besar eval model video hanya teks-ke-video. Jika pitch Omni adalah pengeditan berbasis obrolan, perbandingan Anda tidak bisa hanya berupa fidelitas generasi — Anda memerlukan serangkaian prompt “edit klip ini” yang menguji koherensi multi-giliran, pelestarian identitas objek melalui pengeditan, dan kepatuhan instruksi pada giliran kedua dan ketiga.
  2. Perlakukan segitiga Seedance 2.0 / Wan 2.7 / Omni sebagai working set. Sora 2 dan Veo 3.1 sekarang paling baik dipahami sebagai referensi generasi sebelumnya terhadap segitiga ini. Masing-masing dari ketiganya memiliki kekuatan yang berbeda: Seedance memimpin dalam fidelitas, Wan memimpin dalam input referensi multi-modal, Omni (secara tentatif) memimpin dalam pengeditan obrolan.
  3. Anggarkan untuk harga tingkat Pro. Titik data 43%-dari-kuota-harian adalah sinyal paling keras minggu ini. Jika alur kerja Anda melibatkan pembuatan klip dalam skala besar, rilis tingkat Flash akan lebih penting daripada tingkat Pro. Pantau pengumuman tersebut secara khusus.

Minggu yang akan datang

Google I/O dibuka pada 19 Mei 2026. Slot keynote Selasa adalah tempat pengumuman Gemini dan DeepMind secara tradisional berlangsung. Kebocoran pra-keynote yang sekendalikan ini, selengkap ini — teks kartu model, video sampel, permukaan penagihan, semua dalam satu minggu — konsisten dengan peluncuran yang telah melewati tinjauan internal dan menunggu kalender.

Empat hal yang perlu diperhatikan pada hari tersebut:

  1. Apakah ada tingkatan Flash, dan berapa harganya?
  2. Apakah pitch pengeditan nyata, atau apakah itu kebisingan satu sampel? Secara spesifik, apakah Google menampilkan pengeditan multi-giliran secara langsung di atas panggung?
  3. Apa jalur API-nya? AI Studio? Vertex? Keduanya?
  4. Sinkronisasi audio: tidak ada sampel yang bocor yang membahas apakah Omni menghasilkan audio tersinkronisasi seperti yang dilakukan Veo 3.1. Jika tidak, itu adalah kesenjangan nyata.

Coba alternatif saat ini di WaveSpeedAI

Sampai Omni diluncurkan, sisa bidang video-gen 2026 tersedia langsung di WaveSpeedAI melalui satu API:

Ketika Gemini Omni diluncurkan secara publik, harapkan untuk membandingkannya di bawah API yang sama dalam hitungan hari.