Demos do Gemini Omni Vazaram — Veja o Que o Novo Modelo de Vídeo do Google Realmente Faz

Quando escrevemos sobre o vazamento inicial do Omni em 3 de maio, toda a história era uma única string de interface. Oito dias depois, o quadro se completou consideravelmente. O aplicativo móvel do Gemini trouxe à tona vídeos de amostra reais gerados pelo modelo, o ID interno do modelo vazou (bard_eac_video_generation_omni), e impressões suficientes de uso já são públicas para fazer algumas avaliações preliminares.

A versão resumida: o Omni é real, quase certamente é um novo modelo em vez de um renomeação do Veo 3.1, e nas dimensões que importam para quem constrói produtos de vídeo com IA — fidelidade, edição, custo — ele tem pontos fortes e fracos muito diferentes dos líderes do ranking. Sete dias antes do Google I/O 2026 (19–20 de maio), eis o que se sabe agora.

O que veio à tona esta semana

Em 11 de maio de 2026, o TestingCatalog e o usuário do X @Thomas16937378 extraíram amostras recentes do fluxo de geração de vídeo do aplicativo móvel do Gemini. O texto do cartão do modelo saiu de um placeholder (“Powered by Omni”) para uma descrição completa do produto:

Crie com o Gemini Omni: conheça nosso novo modelo de vídeo. Remixe seus vídeos, edite diretamente no chat, experimente um template e muito mais.

Três detalhes concretos vieram junto:

ID interno do modelo: bard_eac_video_generation_omni. “Bard EAC” é o namespace interno do aplicativo Gemini para funcionalidades experimentais; o sufixo _omni confirma que este é tratado como um modelo distinto, não uma variante do Veo.
Limite de 10 segundos nos clipes gerados no nível de prévia atual. O Veo 3.1 limita a 8s nativamente e 16s com extensão; o Omni atualmente fica entre eles sem uma via de extensão visível ainda.
Nova aba de limites de uso nas configurações do Gemini, indicando um lançamento medido por créditos em vez de uma cota de assinatura mensal — consistente com a forma como o Google tem lançado funcionalidades agênticas de maior custo (Deep Research, Notebook Plus).

Isso representa uma melhoria significativa na qualidade das evidências. O vazamento de 3 de maio era apenas texto de interface. Agora temos texto de interface + endpoint funcionando + saídas observáveis + uma superfície de cobrança.

Os dois vídeos de amostra que as pessoas viram

Ambas as amostras vieram do aplicativo Gemini, de usuários com acesso ao AI Pro que conseguiram invocar o modelo antes de uma suposta reversão. Vale descrevê-los em detalhes porque revelam a qual linhagem de modelos o Omni pertence.

Amostra 1 — “Um professor escrevendo uma prova matemática de identidades trigonométricas numa lousa tradicional.” Os avaliadores consideraram a renderização de texto “notavelmente bem” resolvida — as equações de giz eram legíveis e pareciam matematicamente plausíveis, em vez da sopa de símbolos que modelos de vídeo anteriores produziam. O movimento da mão e do braço pareceu natural. O artigo do chromeunboxed ainda sinalizou “sinais óbvios de IA na saída final” sem especificar quais — provavelmente alguma combinação de microsacadas não naturais, artefatos no mesh da mão e geometria de giz levemente distorcida.

Amostra 2 — “Dois homens comendo espaguete num restaurante sofisticado.” Descrito como “bastante realista.” O teste de enrolar macarrão tem sido um benchmark informal há um ano porque estressa tudo que dá errado no vídeo em espaço latente: contato utensílio-alimento, movimento fluido e identidade facial consistente durante oclusão. O Omni lidou bem o suficiente para ser comentado, mas novamente com a ressalva de que o padrão mínimo para “aceitável” subiu este ano — o Seedance 2.0 e o Wan 2.7 superam essa barra de forma consistente.

Duas amostras não formam um benchmark. Mas duas amostras em dois regimes de dificuldade diferentes (texto no frame e física de contato), ambas com avaliadores notando resultados fortes, mas não perfeitos, são suficientes para posicionar o Omni no mesmo nível do Veo 3.1 — não acima dele em fidelidade bruta, e claramente abaixo do Seedance 2.0.

Onde o Omni realmente se destaca: edição via chat

O resultado interessante da cobertura prática desta semana é que o ponto forte do Omni não é a qualidade de geração. É a edição. Especificamente:

Remoção de marca d’água de clipes de entrada, realizada via instruções de chat em linguagem natural
Substituição de objetos dentro de uma cena (“troque o carro vermelho por um azul”)
Reescritas de cena através de turnos de conversa — descreva o que deve mudar, o modelo retorna uma versão editada, itere

Esta é uma área de atuação significativamente diferente do que o Seedance 2.0 Video-Edit ou o Wan 2.7 Edit expõem atualmente. Esses modelos são excelentes em edições de estilo instrução (“remova os fones de ouvido”, “mude o casaco da mulher para vermelho”), mas não sustentam uma conversa de edição de múltiplos turnos contra um único clipe fonte. O análogo mais próximo hoje é o fluxo de edição em linguagem natural do Kling Omni Video O1, sobre o qual escrevemos em detalhes quando foi lançado.

Se o Omni for lançado como um editor de vídeo com foco em chat — não apenas mais um endpoint de texto para vídeo — essa é a história da proposta de valor única. O Google tem a infraestrutura de LLM para fazer a correção em múltiplos turnos funcionar nativamente de uma forma que a maioria dos fornecedores de modelos de vídeo puros não tem.

A história dos custos

O dado mais marcante: um testador relatou que dois prompts de vídeo consumiram 86% de sua cota diária do AI Pro. Isso equivale a 43% de um dia Pro por clipe — um perfil de custo alinhado com modelos de vídeo de fronteira, não com geração de imagens no nível Flash.

Algumas implicações:

O modelo de prévia rodando no aplicativo Gemini é quase certamente o nível Pro/completo, não Flash. O TestingCatalog especula que uma variante Flash será lançada junto, mas as amostras que vimos não são dela.
O consumo de crédito por clipe nesse ritmo equivale a algo como US$ 0,30–0,50 por clipe de 10s em equivalência de varejo, que é competitivo com o Veo 3.1 (US$ 0,50/s no preço de prévia), mas mais caro que o Seedance 2.0 Fast.
O Google quase certamente introduzirá níveis de uso explícitos na apresentação do I/O — a nova aba de limites de uso é um sinal claro. Espere um nível de custo flash para usuários casuais e um nível pay-as-you-go medido no AI Studio para desenvolvedores.

O que agora pensamos que o Omni realmente é

Três semanas atrás havia três leituras plausíveis: renomeação do Veo, modelo de vídeo Gemini separado, ou modelo omni-modal completo. As evidências de 11 de maio restringem isso:

ID de modelo separado (sufixo _omni, não _veo) descarta uma simples renomeação do Veo. O Google normalmente não renomeia endpoints de modelos existentes durante lançamentos de prévia.
Enquadramento do produto com foco em edição — “remixe, edite diretamente no chat” — não é a linguagem que o Google usou para o Veo, que sempre foi apresentado como texto-para-vídeo + extensão. Isso parece mais um modelo separado com um objetivo de treinamento diferente.
Nenhuma evidência de saída de imagem em nenhuma amostra vazada. Se fosse o modelo omni-modal unificado que o nome sugere, seria de se esperar ver geração de imagens emergir do mesmo endpoint. Até agora, todos os vazamentos foram apenas de vídeo.

Leitura mais provável neste momento: O Omni é um novo modelo de vídeo treinado pelo Gemini, posicionado ao lado do Veo em vez de substituí-lo, com um posicionamento de produto focado em edição. O Nano Banana mostra que o Google está disposto a separar marcas dentro da mesma modalidade (geração de texto-para-imagem roda sob os nomes Nano Banana e Gemini 3 Flash Image). A coexistência entre Omni e Veo segue esse padrão.

O sonho de um modelo omni-modal totalmente unificado que o nome sugere provavelmente ainda é uma geração futura. O que será lançado na próxima semana — se for lançado na próxima semana — é um editor de vídeo competitivo com a superfície de chat nativa de LLM do Google integrada.

O que isso muda para avaliação

Se você está construindo qualquer coisa que envolva vídeo com IA, três coisas mudam nas próximas duas semanas:

Adicione um benchmark de edição ao seu conjunto de avaliações. A maioria das avaliações de modelos de vídeo são apenas de texto para vídeo. Se a proposta do Omni é edição via chat, sua comparação não pode ser apenas fidelidade de geração — você precisa de uma bateria de prompts “edite este clipe” que testem coerência em múltiplos turnos, preservação da identidade de objetos através de edições e aderência a instruções no segundo e terceiro turnos.
Trate o triângulo Seedance 2.0 / Wan 2.7 / Omni como o conjunto de trabalho. O Sora 2 e o Veo 3.1 são agora melhor compreendidos como referências de geração anterior em relação a este triângulo. Cada um dos três tem um ponto forte distinto: o Seedance lidera em fidelidade, o Wan lidera em entradas de referência multimodal, o Omni (provisoriamente) lidera em edição via chat.
Orçamento para preços de nível Pro. O dado de 43% da cota diária é o sinal mais expressivo da semana. Se seu fluxo de trabalho envolve gerar clipes em escala, o lançamento do nível Flash importará mais que o nível Pro. Acompanhe esse anúncio especificamente.

A semana à frente

O Google I/O abre em 19 de maio de 2026. O slot de keynote de terça-feira é onde os anúncios do Gemini e do DeepMind tradicionalmente acontecem. Um vazamento pré-keynote tão controlado, tão completo — texto do cartão do modelo, vídeos de amostra, superfície de cobrança, tudo em uma semana — é consistente com um lançamento que já passou pela revisão interna e está aguardando o calendário.

As quatro coisas a observar no dia:

Há um nível Flash, e quanto custa?
A proposta de edição é real, ou foi ruído de uma única amostra? Especificamente, o Google mostrará edição em múltiplos turnos ao vivo no palco?
Qual é o caminho da API? AI Studio? Vertex? Ambos?
Sincronização de áudio: nenhuma das amostras vazadas aborda se o Omni gera áudio sincronizado como o Veo 3.1 faz. Se não gerar, isso é uma lacuna real.

Experimente as alternativas atuais no WaveSpeedAI

Até o Omni ser lançado, o restante do campo de geração de vídeo de 2026 está disponível no WaveSpeedAI sob uma única API:

Seedance 2.0 — SOTA atual em fidelidade bruta, com variantes Fast para baixa latência
Wan 2.7 — modelo de vídeo rico em referências da Alibaba
Kling V3.0 Pro — opção de alta fidelidade da Kuaishou
Kling Omni Video O1 Edit — edição de vídeo em linguagem natural, o análogo atual mais próximo do que o Omni está sendo apresentado como
Sora 2 — a oferta da OpenAI
Veo 3.1 — modelo de vídeo atual do Google

Quando o Gemini Omni for lançado publicamente, espere compará-lo sob a mesma API em questão de dias.

O que veio à tona esta semana

Os dois vídeos de amostra que as pessoas viram

Onde o Omni realmente se destaca: edição via chat

A história dos custos

O que agora pensamos que o Omni realmente é

O que isso muda para avaliação

A semana à frente

Experimente as alternativas atuais no WaveSpeedAI

Artigos relacionados

GPT-5.6 Apareceu nos Logs do Codex da OpenAI — Veja o Que Isso Realmente Significa

Seedance 2.0 Guia Completo: Criação de Vídeo Multimodal

O Misterioso Modelo de Vídeo 'Omni' do Google: O Que o Vazamento da Interface do Gemini Nos Revela Antes do I/O 2026

Apresentando PixVerse C1 Image-to-Video no WaveSpeedAI

Apresentando PixVerse C1 de Texto para Vídeo no WaveSpeedAI

Apresentando PixVerse C1 Transition no WaveSpeedAI