Gemini Omni Flash Diluncurkan: Video Multi-Modal 10 Detik, Berteknologi SynthID-Watermark, Pengeditan Audio Ditahan
Google meluncurkan Gemini Omni Flash di I/O 2026 — sebuah model tunggal yang bernalar lintas teks, gambar, audio, dan video untuk menghasilkan satu output video yang konsisten dengan audio tersinkronisasi. Inilah yang diluncurkan, yang tidak, dan bagaimana perbedaannya dengan Veo.
Kebocoran string UI pada 3 Mei dan kebocoran demo pada 11 Mei keduanya telah mengisyaratkannya. Per 19 Mei 2026, Gemini Omni Flash kini aktif — model publik pertama dalam kerangka Omni Google, tersedia secara umum pada hari yang sama di aplikasi Gemini, Google Flow, dan YouTube Shorts. Model ini menghasilkan klip video 10 detik dengan audio tersinkronisasi dari satu prompt multi-modal, dan memungkinkan Anda mengedit klip tersebut melalui obrolan. Yang penting, model ini tidak memungkinkan Anda mengedit ucapan atau audio di dalam video yang dihasilkan — kemampuan tersebut sengaja ditahan.
Berikut adalah apa yang sebenarnya dikirimkan, apa yang terlewat oleh kebocoran pra-peluncuran, dan bagaimana Omni Flash memposisikan diri terhadap Veo, Sora 2, dan Seedance 2.0 dalam keputusan produksi.
Apa yang dikirimkan
| Detail | Dikonfirmasi |
|---|---|
| Nama model | Gemini Omni Flash |
| Panjang generasi | 10 detik, dengan audio tersinkronisasi |
| Input | Teks + gambar + audio + video (kombinasi apa pun) |
| Output | Satu video yang konsisten — diproses lintas input, bukan digabungkan |
| Pengeditan | Obrolan percakapan (“ubah pencahayaannya”, “ganti anjingnya dengan kucing”) |
| Watermarking | SynthID tertanam di setiap output |
| Distribusi (konsumen) | Aplikasi Gemini, YouTube Shorts, YouTube Create, Flow |
| Distribusi (pelanggan berbayar) | Gemini AI Plus ($7,99/bln), Pro, Ultra |
| Distribusi (API pengembang) | “Dalam beberapa minggu” |
| Varian tingkat tinggi | Omni Pro direncanakan, tanpa tanggal rilis |
Batasan 10 detik adalah keputusan produk yang paling menarik. Alasan yang dinyatakan Google di panggung: “bukan batasan model, melainkan keputusan berdasarkan keinginan untuk menjangkau lebih banyak pengguna dan antisipasi bahwa sebagian besar pengguna belum ingin membuat video yang jauh lebih panjang.” Itu adalah postur peluncuran yang lebih lunak dibandingkan batasan 8 detik pada Veo 3.1, yang merupakan batas arsitektur. Omni Flash kemungkinan bisa menghasilkan video lebih panjang begitu Google melonggarkan kebijakannya.
Apa yang benar dan salah dari liputan pra-peluncuran kami
Yang benar:
- Omni adalah model baru, bukan rebranding Veo. Arsitektur dan permukaan produknya secara jelas berbeda.
- Penentuan posisi produk yang mengutamakan pengeditan. Penulisan ulang adegan secara percakapan menjadi penekanan demo.
- Pembagian tingkat Flash + Pro sudah akan hadir.
- Sinkronisasi audio nyata dan dikirimkan pada hari pertama.
Yang salah:
- Framing “di belakang Seedance 2.0 dalam fidelitas mentah” dari kebocoran 11 Mei tidak didukung oleh apa pun yang Google tunjukkan di panggung. Demo yang diluncurkan (penjelasan claymation tentang lipatan protein; kelereng yang memantul dengan efek suara yang akurat secara fisika) dipilih secara khusus untuk menekankan fisika kontak, material, narasi suara, dan narasi multi-langkah — kategori di mana Seedance memiliki titik lemah yang terukur. Tanpa tolok ukur independen kami tidak bisa mengatakan Omni unggul, tetapi framing “di belakang” terlalu dini.
- Titik data biaya 43%-dari-kuota-harian dari kebocoran 11 Mei. Harga hari pertama kini berbasis langganan ($7,99/bln untuk tingkat awal) ditambah akses gratis melalui YouTube Shorts dan YouTube Create. Cerita biaya per klip telah digantikan oleh cerita volume distribusi.
Empat hal yang membuat Omni Flash berbeda dari Veo
Ini adalah pertanyaan terpenting untuk keputusan produksi, dan ada jawaban yang jelas.
1. Input
Veo 3.1: teks → video. Gambar → video. Hanya itu.
Omni Flash: teks + gambar + audio + video, semua dalam satu prompt, dengan model yang memproses semuanya secara bersama-sama alih-alih menggabungkannya. Anda bisa memberikannya gambar referensi karakter, file audio dialog yang ingin Anda sampaikan, dan video dengan pencahayaan yang Anda inginkan, dan mendapatkan satu output yang memenuhi ketiga batasan tersebut.
2. Pengeditan
Veo 3.1: regenerasi dengan prompt teks. Setiap pengeditan adalah generasi baru dengan prompt yang dimodifikasi.
Omni Flash: pengeditan inkremental berbasis obrolan. “Buat pencahayaannya lebih hangat.” — dan respons berikutnya mengedit klip yang ada sambil mempertahankan segalanya. Ini adalah area permukaan di mana arsitektur native LLM terbayar.
3. Audio
Veo 3.1: audio tersinkronisasi dengan video.
Omni Flash: audio tersinkronisasi ditambah kemampuan menggunakan audio input sebagai batasan generasi. Tetapi — dan ini penting — pengeditan audio dan ucapan dari video yang dihasilkan ditahan. Google meluncurkan model dalam mode “tanpa edit narasi suara” karena alasan keamanan yang jelas terkait paparan deepfake di tahun pemilu. Ekspektasikan ini akan dilonggarkan setelah kebijakan dan tumpukan deteksi stabil.
4. Distribusi
Veo 3.1: Vertex API, AI Studio, dan aplikasi Veo dengan harga premium.
Omni Flash: akses gratis melalui YouTube Shorts dan YouTube Create mulai minggu ini. Akses berbayar dimulai dari $7,99/bln Google AI Plus. Ini adalah go-to-market yang sepenuhnya berbeda — Google menggunakan distribusi YouTube untuk menempatkan Omni di hadapan ratusan juta pengguna tanpa biaya marjinal.
Apa yang disampaikan kombinasi SynthID + penahanan audio kepada Anda
Google memperlakukan Omni Flash sebagai produk konsumen pertama dan produk pengembang kedua. Dua pilihan kebijakan yang menjelaskan hal itu:
- SynthID tidak opsional. Setiap output memiliki watermark yang tidak terlihat yang dapat diverifikasi melalui aplikasi Gemini, Chrome, dan Search. Tidak ada tombol API untuk menonaktifkan ini. Untuk kasus penggunaan komersial yang membutuhkan output bersih, Anda berada di lapisan yang salah sampai API pengembang dikirimkan.
- Pengeditan audio/ucapan ditahan. Ini adalah kemampuan berisiko tertinggi yang didukung arsitektur — kemampuan untuk memodifikasi suara dalam video yang ada. Menahannya menandakan pemahaman Google tentang di mana risiko regulasi dan reputasi berada. Jangan rencanakan alur kerja produksi di sekitar kemampuan yang belum dikirimkan.
Pengumuman “Omni Pro” memperkuat ini. Google secara eksplisit mengatakan Pro hadir “ketika kami melihat perubahan langkah di atas Flash” — bukan “kami akan segera memiliki tanggal rilis.” Ungkapan itu konsisten dengan model yang belum selesai dilatih, bukan model yang terkendala oleh tinjauan kebijakan.
Di mana ini meninggalkan para pembangun hari ini
Tiga pembacaan konkret:
- Untuk alat kreatif yang menghadap konsumen, Omni Flash adalah default baru dalam permukaan distribusi Google. Jika produk Anda adalah aplikasi pembuatan video yang ditujukan untuk pengguna akhir, Anda perlu mengujinya secara khusus.
- Untuk pipeline pengembang, tunggu dulu. API “dalam beberapa minggu” — artinya bisa 2 minggu atau 8. Tanpa akses API dan tanpa jadwal rilis Omni Pro, bidang model video tingkat produksi belum benar-benar bergerak. Veo 3.1, Seedance 2.0, dan Sora 2 tetap menjadi pilihan produksi.
- Untuk evaluasi, siapkan prompt Anda sekarang. Pilih tiga kategori pengujian: fisika kontak (demo kelereng), narasi suara (demo claymation), dan pengeditan percakapan-tanpa-degradasi (giliran ketiga dari sesi pengeditan multi-giliran). Jalankan melalui model produksi Anda saat ini sehingga Anda memiliki baseline sebelum Omni Flash muncul di bawah kunci API Anda.
Apa yang perlu diperhatikan
Empat sinyal selama dua hingga empat minggu ke depan:
- Peluncuran API pengembang. Harga, batas laju, dan apakah permukaan Vertex AI mencerminkan AI Studio. Pertanyaan sulit: apakah panggilan API menyematkan SynthID, dan apakah itu bisa dinonaktifkan untuk akun komersial?
- Durasi video yang lebih panjang. Batasan 10 detik adalah keputusan kebijakan. Pertama kali seseorang menghasilkan klip 30 detik di alam liar, pengangkatan itu menandakan kepercayaan diri Google pada pipeline keamanan.
- Pengembalian pengeditan audio. Ketika ini dikirimkan, itulah momen model risiko deepfake telah lulus tinjauan internal. Itulah cerita kemampuan yang lebih menarik daripada model itu sendiri.
- Profil tolok ukur aktual Omni Pro. Framing “perubahan langkah di atas Flash” adalah hedging yang sama yang digunakan Anthropic pra-Opus — artinya kita harus mengharapkan lompatan kemampuan yang berarti daripada rilis inkremental. Perhatikan kartu sistem.
Ketika API pengembang diluncurkan dan Omni Flash dapat diakses bersama sisa frontier pembuatan video, ekspektasikan untuk membandingkannya di bawah satu kunci — bersama Veo 3.1, Seedance, Sora 2, dan Kling Omni Video O1. Jajaran model Google saat ini di WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image, dan lainnya — sudah aktif hari ini di bawah API yang sama.
Sumber: TechCrunch tentang Gemini Omni, The Tech Portal I/O roundup, Technobezz tentang Omni Flash, TechTimes tentang penahanan audio, 9to5Google I/O 2026 news.
