Gemini Omni Flash Lançado: Vídeo Multimodal de 10 Segundos, Marca d'Água SynthID, Edição de Áudio Retida
O Google lançou o Gemini Omni Flash no I/O 2026 — um único modelo que raciocina sobre texto, imagem, áudio e vídeo para produzir uma saída de vídeo consistente com áudio sincronizado. Veja o que foi lançado, o que não foi e como ele se diferencia do Veo.
O vazamento de strings de UI de 3 de maio e o vazamento de demo de 11 de maio já apontavam para isso. A partir de 19 de maio de 2026, o Gemini Omni Flash está no ar — o primeiro modelo público do framework Omni do Google, disponível para o público geral no mesmo dia no aplicativo Gemini, Google Flow e YouTube Shorts. Ele gera clipes de vídeo de 10 segundos com áudio sincronizado a partir de um único prompt multimodal e permite editar esses clipes por meio de chat. Crucialmente, ele não permite editar fala ou áudio dentro dos vídeos gerados — essa capacidade está sendo deliberadamente retida.
O que se segue é o que realmente foi lançado, o que os vazamentos pré-lançamento perderam e como o Omni Flash se posiciona em relação ao Veo, Sora 2 e Seedance 2.0 em decisões de produção.
O que foi lançado
| Detalhe | Confirmado |
|---|---|
| Nome do modelo | Gemini Omni Flash |
| Duração da geração | 10 segundos, com áudio sincronizado |
| Entradas | Texto + imagem + áudio + vídeo (qualquer combinação) |
| Saída | Um vídeo consistente — raciocínio entre entradas, não costurado |
| Edição | Chat conversacional (“mude a iluminação”, “troque o cachorro por um gato”) |
| Marca d’água | SynthID incorporado em cada saída |
| Distribuição (consumidor) | Aplicativo Gemini, YouTube Shorts, YouTube Create, Flow |
| Distribuição (assinantes pagos) | Gemini AI Plus ($7,99/mês), Pro, Ultra |
| Distribuição (API para desenvolvedores) | “Nas próximas semanas” |
| Variante de nível superior | Omni Pro planejado, sem data de lançamento |
O limite de 10 segundos é a decisão de produto mais interessante. O motivo declarado pelo Google no palco: “não é uma limitação do modelo, mas sim uma decisão baseada tanto no desejo de colocá-lo nas mãos de mais pessoas quanto na expectativa de que a maioria dos usuários não vai querer fazer vídeos muito mais longos ainda.” Essa é uma postura de lançamento mais suave do que o limite de 8 segundos do Veo 3.1, que era um teto arquitetural. O Omni Flash pode presumivelmente ir mais longo no momento em que o Google relaxar a política.
O que nossa cobertura pré-lançamento acertou e errou
Acertou:
- Omni é um novo modelo, não uma reformulação do Veo. A arquitetura e a superfície do produto são distintamente diferentes.
- Posicionamento de produto com foco em edição. A reescrita conversacional de cenas foi o destaque da demo.
- Uma divisão de nível Flash + Pro estava chegando.
- A sincronização de áudio era real e foi lançada no primeiro dia.
Errou:
- A afirmação de “atrás do Seedance 2.0 em fidelidade bruta” proveniente do vazamento de 11 de maio não é sustentada por nada que o Google mostrou no palco. As demos lançadas (um explicador em claymation sobre dobramento de proteínas; uma bola de gude quicando com efeitos sonoros fisicamente precisos) foram especificamente escolhidas para enfatizar física de contato, materiais, voz em off e narrativa em múltiplas etapas — categorias onde o Seedance tem tido pontos fracos mensuráveis. Sem benchmarks independentes, não podemos dizer que o Omni lidera, mas a afirmação de “atrás” foi prematura.
- O dado de custo de 43% da cota diária dos vazamentos de 11 de maio. Os preços do primeiro dia agora são baseados em assinatura ($7,99/mês no nível inicial) mais acesso gratuito pelo YouTube Shorts e YouTube Create. A história de custo por clipe foi substituída por uma história de volume de distribuição.
As quatro coisas que tornam o Omni Flash diferente do Veo
Esta é a questão mais importante para decisões de produção, e há respostas claras.
1. Entradas
Veo 3.1: texto → vídeo. Imagem → vídeo. Só isso.
Omni Flash: texto + imagem + áudio + vídeo, tudo em um único prompt, com o modelo raciocinando entre eles em vez de concatenar. Você pode fornecer uma imagem de referência de um personagem, um arquivo de áudio com o diálogo que você quer que eles digam e um vídeo da iluminação que você deseja, e obter uma saída que resolve todas as três restrições.
2. Edição
Veo 3.1: regeração por prompt de texto. Cada edição é uma nova geração com um prompt modificado.
Omni Flash: edição incremental baseada em chat. “Torne a iluminação mais quente.” — e a próxima resposta edita o clipe existente preservando todo o resto. Esta é a área onde a arquitetura nativa de LLM compensa.
3. Áudio
Veo 3.1: áudio sincronizado com o vídeo.
Omni Flash: áudio sincronizado mais a capacidade de usar áudio de entrada como restrição de geração. Mas — e isso importa — a edição de áudio e fala de vídeos gerados está retida. O Google está lançando o modelo no modo “sem edição de voz em off” por razões de segurança que obviamente dizem respeito à exposição a deepfakes em ano eleitoral. Espera-se que isso seja relaxado assim que a política e a pilha de detecção se estabilizem.
4. Distribuição
Veo 3.1: API Vertex, AI Studio e o aplicativo Veo a preços premium.
Omni Flash: acesso gratuito pelo YouTube Shorts e YouTube Create a partir desta semana. O acesso pago começa no nível Google AI Plus por $7,99/mês. Essa é uma estratégia de entrada no mercado completamente diferente — o Google está usando a distribuição do YouTube para colocar o Omni na frente de centenas de milhões de usuários sem custo marginal.
O que a combinação SynthID + retenção de áudio revela
O Google está tratando o Omni Flash como um produto de consumo em primeiro lugar e um produto para desenvolvedores em segundo. As duas escolhas de política que tornam isso claro:
- SynthID não é opcional. Cada saída tem uma marca d’água imperceptível verificável pelo aplicativo Gemini, Chrome e Search. Não há opção na API para desativar isso. Para casos de uso comercial que precisam de saída limpa, você está na camada errada até que a API para desenvolvedores seja lançada.
- A edição de áudio/fala está retida. Esta é a capacidade de maior risco que a arquitetura suporta — a capacidade de modificar a voz em um vídeo existente. Retê-la sinaliza a leitura do Google sobre onde reside o risco regulatório e reputacional. Não planeje fluxos de trabalho de produção em torno de capacidades que ainda não foram lançadas.
O anúncio do “Omni Pro” reforça isso. O Google disse explicitamente que o Pro chega “quando virmos uma mudança de nível acima do Flash” — não “teremos uma data de lançamento em breve.” Essa formulação é consistente com um modelo que não terminou de treinar, não um modelo que está bloqueado na revisão de política.
Onde isso deixa os desenvolvedores hoje
Três leituras concretas:
- Para ferramentas criativas voltadas ao consumidor, o Omni Flash é o novo padrão dentro da superfície de distribuição do Google. Se o seu produto é um aplicativo de criação de vídeo voltado para usuários finais, você precisará testá-lo especificamente contra ele.
- Para pipelines de desenvolvedor, aguarde. A API está “nas próximas semanas” — o que pode significar 2 semanas ou 8. Sem acesso à API e sem um cronograma de lançamento do Omni Pro, o campo de modelos de vídeo de nível de produção ainda não se moveu. Veo 3.1, Seedance 2.0 e Sora 2 continuam sendo as opções de produção.
- Para avaliação, configure seus prompts agora. Escolha três categorias de teste: física de contato (a demo da bola de gude), narração em voz em off (a demo de claymation) e edição conversacional sem degradação (a terceira rodada de uma sessão de edição de múltiplas rodadas). Execute-os pelo seu modelo de produção atual para ter a linha de base antes que o Omni Flash apareça na sua chave de API.
O que acompanhar
Quatro sinais nas próximas duas a quatro semanas:
- O lançamento da API para desenvolvedores. Preços, limites de taxa e se a superfície do Vertex AI espelha a do AI Studio. A questão difícil: as chamadas de API incorporam SynthID, e isso é configurável para contas comerciais?
- Durações de vídeo mais longas. O limite de 10 segundos é uma decisão de política. A primeira vez que alguém gerar um clipe de 30 segundos, isso sinaliza a confiança do Google no pipeline de segurança.
- O retorno da edição de áudio. Quando isso for lançado, é o momento em que o modelo de risco de deepfake passou pela revisão interna. Essa é a história de capacidade mais interessante do que o modelo em si.
- O perfil real de benchmark do Omni Pro. A formulação “mudança de nível acima do Flash” é a mesma hedge que a Anthropic usou antes do Opus — o que significa que devemos esperar um salto significativo de capacidade em vez de um lançamento incremental. Fique atento ao system card.
Quando a API para desenvolvedores for lançada e o Omni Flash se tornar acessível junto com o restante da fronteira de geração de vídeo, espere compará-lo sob uma única chave — ao lado do Veo 3.1, Seedance, Sora 2 e Kling Omni Video O1. A atual linha de modelos do Google no WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image e o restante — está disponível hoje sob essa mesma API.
Fontes: TechCrunch sobre Gemini Omni, The Tech Portal I/O roundup, Technobezz sobre Omni Flash, TechTimes sobre a retenção de áudio, 9to5Google I/O 2026 news.
