Demos do Gemini Omni Vazaram — Veja o Que o Novo Modelo de Vídeo do Google Realmente Faz
Oito dias após o vazamento original de strings de interface, os primeiros vídeos de amostra do Gemini Omni surgiram. Forte em edição guiada por chat, atrás do Seedance 2.0 em fidelidade bruta, e consumindo cerca de 43% da cota diária do AI Pro por clipe. Aqui está a leitura honesta uma semana antes do I/O 2026.
Quando escrevemos sobre o vazamento inicial do Omni em 3 de maio, toda a história era uma única string de interface. Oito dias depois, o quadro se completou consideravelmente. O aplicativo móvel do Gemini trouxe à tona vídeos de amostra reais gerados pelo modelo, o ID interno do modelo vazou (bard_eac_video_generation_omni), e impressões suficientes de uso já são públicas para fazer algumas avaliações preliminares.
A versão resumida: o Omni é real, quase certamente é um novo modelo em vez de um renomeação do Veo 3.1, e nas dimensões que importam para quem constrói produtos de vídeo com IA — fidelidade, edição, custo — ele tem pontos fortes e fracos muito diferentes dos líderes do ranking. Sete dias antes do Google I/O 2026 (19–20 de maio), eis o que se sabe agora.
O que veio à tona esta semana
Em 11 de maio de 2026, o TestingCatalog e o usuário do X @Thomas16937378 extraíram amostras recentes do fluxo de geração de vídeo do aplicativo móvel do Gemini. O texto do cartão do modelo saiu de um placeholder (“Powered by Omni”) para uma descrição completa do produto:
Crie com o Gemini Omni: conheça nosso novo modelo de vídeo. Remixe seus vídeos, edite diretamente no chat, experimente um template e muito mais.
Três detalhes concretos vieram junto:
- ID interno do modelo:
bard_eac_video_generation_omni. “Bard EAC” é o namespace interno do aplicativo Gemini para funcionalidades experimentais; o sufixo_omniconfirma que este é tratado como um modelo distinto, não uma variante do Veo. - Limite de 10 segundos nos clipes gerados no nível de prévia atual. O Veo 3.1 limita a 8s nativamente e 16s com extensão; o Omni atualmente fica entre eles sem uma via de extensão visível ainda.
- Nova aba de limites de uso nas configurações do Gemini, indicando um lançamento medido por créditos em vez de uma cota de assinatura mensal — consistente com a forma como o Google tem lançado funcionalidades agênticas de maior custo (Deep Research, Notebook Plus).
Isso representa uma melhoria significativa na qualidade das evidências. O vazamento de 3 de maio era apenas texto de interface. Agora temos texto de interface + endpoint funcionando + saídas observáveis + uma superfície de cobrança.
Os dois vídeos de amostra que as pessoas viram
Ambas as amostras vieram do aplicativo Gemini, de usuários com acesso ao AI Pro que conseguiram invocar o modelo antes de uma suposta reversão. Vale descrevê-los em detalhes porque revelam a qual linhagem de modelos o Omni pertence.
Amostra 1 — “Um professor escrevendo uma prova matemática de identidades trigonométricas numa lousa tradicional.” Os avaliadores consideraram a renderização de texto “notavelmente bem” resolvida — as equações de giz eram legíveis e pareciam matematicamente plausíveis, em vez da sopa de símbolos que modelos de vídeo anteriores produziam. O movimento da mão e do braço pareceu natural. O artigo do chromeunboxed ainda sinalizou “sinais óbvios de IA na saída final” sem especificar quais — provavelmente alguma combinação de microsacadas não naturais, artefatos no mesh da mão e geometria de giz levemente distorcida.
Amostra 2 — “Dois homens comendo espaguete num restaurante sofisticado.” Descrito como “bastante realista.” O teste de enrolar macarrão tem sido um benchmark informal há um ano porque estressa tudo que dá errado no vídeo em espaço latente: contato utensílio-alimento, movimento fluido e identidade facial consistente durante oclusão. O Omni lidou bem o suficiente para ser comentado, mas novamente com a ressalva de que o padrão mínimo para “aceitável” subiu este ano — o Seedance 2.0 e o Wan 2.7 superam essa barra de forma consistente.
Duas amostras não formam um benchmark. Mas duas amostras em dois regimes de dificuldade diferentes (texto no frame e física de contato), ambas com avaliadores notando resultados fortes, mas não perfeitos, são suficientes para posicionar o Omni no mesmo nível do Veo 3.1 — não acima dele em fidelidade bruta, e claramente abaixo do Seedance 2.0.
Onde o Omni realmente se destaca: edição via chat
O resultado interessante da cobertura prática desta semana é que o ponto forte do Omni não é a qualidade de geração. É a edição. Especificamente:
- Remoção de marca d’água de clipes de entrada, realizada via instruções de chat em linguagem natural
- Substituição de objetos dentro de uma cena (“troque o carro vermelho por um azul”)
- Reescritas de cena através de turnos de conversa — descreva o que deve mudar, o modelo retorna uma versão editada, itere
Esta é uma área de atuação significativamente diferente do que o Seedance 2.0 Video-Edit ou o Wan 2.7 Edit expõem atualmente. Esses modelos são excelentes em edições de estilo instrução (“remova os fones de ouvido”, “mude o casaco da mulher para vermelho”), mas não sustentam uma conversa de edição de múltiplos turnos contra um único clipe fonte. O análogo mais próximo hoje é o fluxo de edição em linguagem natural do Kling Omni Video O1, sobre o qual escrevemos em detalhes quando foi lançado.
Se o Omni for lançado como um editor de vídeo com foco em chat — não apenas mais um endpoint de texto para vídeo — essa é a história da proposta de valor única. O Google tem a infraestrutura de LLM para fazer a correção em múltiplos turnos funcionar nativamente de uma forma que a maioria dos fornecedores de modelos de vídeo puros não tem.
A história dos custos
O dado mais marcante: um testador relatou que dois prompts de vídeo consumiram 86% de sua cota diária do AI Pro. Isso equivale a 43% de um dia Pro por clipe — um perfil de custo alinhado com modelos de vídeo de fronteira, não com geração de imagens no nível Flash.
Algumas implicações:
- O modelo de prévia rodando no aplicativo Gemini é quase certamente o nível Pro/completo, não Flash. O TestingCatalog especula que uma variante Flash será lançada junto, mas as amostras que vimos não são dela.
- O consumo de crédito por clipe nesse ritmo equivale a algo como US$ 0,30–0,50 por clipe de 10s em equivalência de varejo, que é competitivo com o Veo 3.1 (US$ 0,50/s no preço de prévia), mas mais caro que o Seedance 2.0 Fast.
- O Google quase certamente introduzirá níveis de uso explícitos na apresentação do I/O — a nova aba de limites de uso é um sinal claro. Espere um nível de custo flash para usuários casuais e um nível pay-as-you-go medido no AI Studio para desenvolvedores.
O que agora pensamos que o Omni realmente é
Três semanas atrás havia três leituras plausíveis: renomeação do Veo, modelo de vídeo Gemini separado, ou modelo omni-modal completo. As evidências de 11 de maio restringem isso:
- ID de modelo separado (sufixo
_omni, não_veo) descarta uma simples renomeação do Veo. O Google normalmente não renomeia endpoints de modelos existentes durante lançamentos de prévia. - Enquadramento do produto com foco em edição — “remixe, edite diretamente no chat” — não é a linguagem que o Google usou para o Veo, que sempre foi apresentado como texto-para-vídeo + extensão. Isso parece mais um modelo separado com um objetivo de treinamento diferente.
- Nenhuma evidência de saída de imagem em nenhuma amostra vazada. Se fosse o modelo omni-modal unificado que o nome sugere, seria de se esperar ver geração de imagens emergir do mesmo endpoint. Até agora, todos os vazamentos foram apenas de vídeo.
Leitura mais provável neste momento: O Omni é um novo modelo de vídeo treinado pelo Gemini, posicionado ao lado do Veo em vez de substituí-lo, com um posicionamento de produto focado em edição. O Nano Banana mostra que o Google está disposto a separar marcas dentro da mesma modalidade (geração de texto-para-imagem roda sob os nomes Nano Banana e Gemini 3 Flash Image). A coexistência entre Omni e Veo segue esse padrão.
O sonho de um modelo omni-modal totalmente unificado que o nome sugere provavelmente ainda é uma geração futura. O que será lançado na próxima semana — se for lançado na próxima semana — é um editor de vídeo competitivo com a superfície de chat nativa de LLM do Google integrada.
O que isso muda para avaliação
Se você está construindo qualquer coisa que envolva vídeo com IA, três coisas mudam nas próximas duas semanas:
- Adicione um benchmark de edição ao seu conjunto de avaliações. A maioria das avaliações de modelos de vídeo são apenas de texto para vídeo. Se a proposta do Omni é edição via chat, sua comparação não pode ser apenas fidelidade de geração — você precisa de uma bateria de prompts “edite este clipe” que testem coerência em múltiplos turnos, preservação da identidade de objetos através de edições e aderência a instruções no segundo e terceiro turnos.
- Trate o triângulo Seedance 2.0 / Wan 2.7 / Omni como o conjunto de trabalho. O Sora 2 e o Veo 3.1 são agora melhor compreendidos como referências de geração anterior em relação a este triângulo. Cada um dos três tem um ponto forte distinto: o Seedance lidera em fidelidade, o Wan lidera em entradas de referência multimodal, o Omni (provisoriamente) lidera em edição via chat.
- Orçamento para preços de nível Pro. O dado de 43% da cota diária é o sinal mais expressivo da semana. Se seu fluxo de trabalho envolve gerar clipes em escala, o lançamento do nível Flash importará mais que o nível Pro. Acompanhe esse anúncio especificamente.
A semana à frente
O Google I/O abre em 19 de maio de 2026. O slot de keynote de terça-feira é onde os anúncios do Gemini e do DeepMind tradicionalmente acontecem. Um vazamento pré-keynote tão controlado, tão completo — texto do cartão do modelo, vídeos de amostra, superfície de cobrança, tudo em uma semana — é consistente com um lançamento que já passou pela revisão interna e está aguardando o calendário.
As quatro coisas a observar no dia:
- Há um nível Flash, e quanto custa?
- A proposta de edição é real, ou foi ruído de uma única amostra? Especificamente, o Google mostrará edição em múltiplos turnos ao vivo no palco?
- Qual é o caminho da API? AI Studio? Vertex? Ambos?
- Sincronização de áudio: nenhuma das amostras vazadas aborda se o Omni gera áudio sincronizado como o Veo 3.1 faz. Se não gerar, isso é uma lacuna real.
Experimente as alternativas atuais no WaveSpeedAI
Até o Omni ser lançado, o restante do campo de geração de vídeo de 2026 está disponível no WaveSpeedAI sob uma única API:
- Seedance 2.0 — SOTA atual em fidelidade bruta, com variantes Fast para baixa latência
- Wan 2.7 — modelo de vídeo rico em referências da Alibaba
- Kling V3.0 Pro — opção de alta fidelidade da Kuaishou
- Kling Omni Video O1 Edit — edição de vídeo em linguagem natural, o análogo atual mais próximo do que o Omni está sendo apresentado como
- Sora 2 — a oferta da OpenAI
- Veo 3.1 — modelo de vídeo atual do Google
Quando o Gemini Omni for lançado publicamente, espere compará-lo sob a mesma API em questão de dias.
