← Blog

Gemini Omni Flash Lançado: Vídeo Multimodal de 10 Segundos, Marca d'Água SynthID, Edição de Áudio Retida

O Google lançou o Gemini Omni Flash no I/O 2026 — um único modelo que raciocina sobre texto, imagem, áudio e vídeo para produzir uma saída de vídeo consistente com áudio sincronizado. Veja o que foi lançado, o que não foi e como ele se diferencia do Veo.

By WaveSpeedAI 8 min read

O vazamento de strings de UI de 3 de maio e o vazamento de demo de 11 de maio já apontavam para isso. A partir de 19 de maio de 2026, o Gemini Omni Flash está no ar — o primeiro modelo público do framework Omni do Google, disponível para o público geral no mesmo dia no aplicativo Gemini, Google Flow e YouTube Shorts. Ele gera clipes de vídeo de 10 segundos com áudio sincronizado a partir de um único prompt multimodal e permite editar esses clipes por meio de chat. Crucialmente, ele não permite editar fala ou áudio dentro dos vídeos gerados — essa capacidade está sendo deliberadamente retida.

O que se segue é o que realmente foi lançado, o que os vazamentos pré-lançamento perderam e como o Omni Flash se posiciona em relação ao Veo, Sora 2 e Seedance 2.0 em decisões de produção.

O que foi lançado

DetalheConfirmado
Nome do modeloGemini Omni Flash
Duração da geração10 segundos, com áudio sincronizado
EntradasTexto + imagem + áudio + vídeo (qualquer combinação)
SaídaUm vídeo consistente — raciocínio entre entradas, não costurado
EdiçãoChat conversacional (“mude a iluminação”, “troque o cachorro por um gato”)
Marca d’águaSynthID incorporado em cada saída
Distribuição (consumidor)Aplicativo Gemini, YouTube Shorts, YouTube Create, Flow
Distribuição (assinantes pagos)Gemini AI Plus ($7,99/mês), Pro, Ultra
Distribuição (API para desenvolvedores)“Nas próximas semanas”
Variante de nível superiorOmni Pro planejado, sem data de lançamento

O limite de 10 segundos é a decisão de produto mais interessante. O motivo declarado pelo Google no palco: “não é uma limitação do modelo, mas sim uma decisão baseada tanto no desejo de colocá-lo nas mãos de mais pessoas quanto na expectativa de que a maioria dos usuários não vai querer fazer vídeos muito mais longos ainda.” Essa é uma postura de lançamento mais suave do que o limite de 8 segundos do Veo 3.1, que era um teto arquitetural. O Omni Flash pode presumivelmente ir mais longo no momento em que o Google relaxar a política.

O que nossa cobertura pré-lançamento acertou e errou

Acertou:

  • Omni é um novo modelo, não uma reformulação do Veo. A arquitetura e a superfície do produto são distintamente diferentes.
  • Posicionamento de produto com foco em edição. A reescrita conversacional de cenas foi o destaque da demo.
  • Uma divisão de nível Flash + Pro estava chegando.
  • A sincronização de áudio era real e foi lançada no primeiro dia.

Errou:

  • A afirmação de “atrás do Seedance 2.0 em fidelidade bruta” proveniente do vazamento de 11 de maio não é sustentada por nada que o Google mostrou no palco. As demos lançadas (um explicador em claymation sobre dobramento de proteínas; uma bola de gude quicando com efeitos sonoros fisicamente precisos) foram especificamente escolhidas para enfatizar física de contato, materiais, voz em off e narrativa em múltiplas etapas — categorias onde o Seedance tem tido pontos fracos mensuráveis. Sem benchmarks independentes, não podemos dizer que o Omni lidera, mas a afirmação de “atrás” foi prematura.
  • O dado de custo de 43% da cota diária dos vazamentos de 11 de maio. Os preços do primeiro dia agora são baseados em assinatura ($7,99/mês no nível inicial) mais acesso gratuito pelo YouTube Shorts e YouTube Create. A história de custo por clipe foi substituída por uma história de volume de distribuição.

As quatro coisas que tornam o Omni Flash diferente do Veo

Esta é a questão mais importante para decisões de produção, e há respostas claras.

1. Entradas

Veo 3.1: texto → vídeo. Imagem → vídeo. Só isso.

Omni Flash: texto + imagem + áudio + vídeo, tudo em um único prompt, com o modelo raciocinando entre eles em vez de concatenar. Você pode fornecer uma imagem de referência de um personagem, um arquivo de áudio com o diálogo que você quer que eles digam e um vídeo da iluminação que você deseja, e obter uma saída que resolve todas as três restrições.

2. Edição

Veo 3.1: regeração por prompt de texto. Cada edição é uma nova geração com um prompt modificado.

Omni Flash: edição incremental baseada em chat. “Torne a iluminação mais quente.” — e a próxima resposta edita o clipe existente preservando todo o resto. Esta é a área onde a arquitetura nativa de LLM compensa.

3. Áudio

Veo 3.1: áudio sincronizado com o vídeo.

Omni Flash: áudio sincronizado mais a capacidade de usar áudio de entrada como restrição de geração. Mas — e isso importa — a edição de áudio e fala de vídeos gerados está retida. O Google está lançando o modelo no modo “sem edição de voz em off” por razões de segurança que obviamente dizem respeito à exposição a deepfakes em ano eleitoral. Espera-se que isso seja relaxado assim que a política e a pilha de detecção se estabilizem.

4. Distribuição

Veo 3.1: API Vertex, AI Studio e o aplicativo Veo a preços premium.

Omni Flash: acesso gratuito pelo YouTube Shorts e YouTube Create a partir desta semana. O acesso pago começa no nível Google AI Plus por $7,99/mês. Essa é uma estratégia de entrada no mercado completamente diferente — o Google está usando a distribuição do YouTube para colocar o Omni na frente de centenas de milhões de usuários sem custo marginal.

O que a combinação SynthID + retenção de áudio revela

O Google está tratando o Omni Flash como um produto de consumo em primeiro lugar e um produto para desenvolvedores em segundo. As duas escolhas de política que tornam isso claro:

  1. SynthID não é opcional. Cada saída tem uma marca d’água imperceptível verificável pelo aplicativo Gemini, Chrome e Search. Não há opção na API para desativar isso. Para casos de uso comercial que precisam de saída limpa, você está na camada errada até que a API para desenvolvedores seja lançada.
  2. A edição de áudio/fala está retida. Esta é a capacidade de maior risco que a arquitetura suporta — a capacidade de modificar a voz em um vídeo existente. Retê-la sinaliza a leitura do Google sobre onde reside o risco regulatório e reputacional. Não planeje fluxos de trabalho de produção em torno de capacidades que ainda não foram lançadas.

O anúncio do “Omni Pro” reforça isso. O Google disse explicitamente que o Pro chega “quando virmos uma mudança de nível acima do Flash” — não “teremos uma data de lançamento em breve.” Essa formulação é consistente com um modelo que não terminou de treinar, não um modelo que está bloqueado na revisão de política.

Onde isso deixa os desenvolvedores hoje

Três leituras concretas:

  1. Para ferramentas criativas voltadas ao consumidor, o Omni Flash é o novo padrão dentro da superfície de distribuição do Google. Se o seu produto é um aplicativo de criação de vídeo voltado para usuários finais, você precisará testá-lo especificamente contra ele.
  2. Para pipelines de desenvolvedor, aguarde. A API está “nas próximas semanas” — o que pode significar 2 semanas ou 8. Sem acesso à API e sem um cronograma de lançamento do Omni Pro, o campo de modelos de vídeo de nível de produção ainda não se moveu. Veo 3.1, Seedance 2.0 e Sora 2 continuam sendo as opções de produção.
  3. Para avaliação, configure seus prompts agora. Escolha três categorias de teste: física de contato (a demo da bola de gude), narração em voz em off (a demo de claymation) e edição conversacional sem degradação (a terceira rodada de uma sessão de edição de múltiplas rodadas). Execute-os pelo seu modelo de produção atual para ter a linha de base antes que o Omni Flash apareça na sua chave de API.

O que acompanhar

Quatro sinais nas próximas duas a quatro semanas:

  1. O lançamento da API para desenvolvedores. Preços, limites de taxa e se a superfície do Vertex AI espelha a do AI Studio. A questão difícil: as chamadas de API incorporam SynthID, e isso é configurável para contas comerciais?
  2. Durações de vídeo mais longas. O limite de 10 segundos é uma decisão de política. A primeira vez que alguém gerar um clipe de 30 segundos, isso sinaliza a confiança do Google no pipeline de segurança.
  3. O retorno da edição de áudio. Quando isso for lançado, é o momento em que o modelo de risco de deepfake passou pela revisão interna. Essa é a história de capacidade mais interessante do que o modelo em si.
  4. O perfil real de benchmark do Omni Pro. A formulação “mudança de nível acima do Flash” é a mesma hedge que a Anthropic usou antes do Opus — o que significa que devemos esperar um salto significativo de capacidade em vez de um lançamento incremental. Fique atento ao system card.

Quando a API para desenvolvedores for lançada e o Omni Flash se tornar acessível junto com o restante da fronteira de geração de vídeo, espere compará-lo sob uma única chave — ao lado do Veo 3.1, Seedance, Sora 2 e Kling Omni Video O1. A atual linha de modelos do Google no WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image e o restante — está disponível hoje sob essa mesma API.

Fontes: TechCrunch sobre Gemini Omni, The Tech Portal I/O roundup, Technobezz sobre Omni Flash, TechTimes sobre a retenção de áudio, 9to5Google I/O 2026 news.

Compartilhar