← Blog

Los Demos de Gemini Omni Acaban de Filtrarse — Esto Es Lo Que Realmente Hace el Nuevo Modelo de Video de Google

Ocho días después de la filtración original de cadenas de UI, los primeros videos de muestra de Gemini Omni salieron a la luz. Destaca en la edición por chat, pero queda por detrás de Seedance 2.0 en fidelidad bruta, y consume aproximadamente el 43% de la cuota diaria de AI Pro por clip. Aquí está la lectura honesta a una semana del I/O 2026.

10 min read

Cuando escribimos sobre la filtración inicial de Omni el 3 de mayo, toda la historia consistía en una sola cadena de texto de interfaz. Ocho días después, el panorama se ha completado considerablemente. La aplicación móvil de Gemini mostró videos de muestra reales generados por el modelo, se filtró el ID interno del modelo (bard_eac_video_generation_omni), y ahora hay suficientes impresiones prácticas disponibles para hacer algunas valoraciones tempranas.

La versión corta: Omni es real, casi con certeza es un modelo nuevo en lugar de un cambio de nombre de Veo 3.1, y en las dimensiones que importan a quienes construyen productos de video con IA —fidelidad, edición, coste— tiene fortalezas y debilidades muy distintas a las de los líderes del ranking. A siete días del Google I/O 2026 (19–20 de mayo), esto es lo que se sabe ahora.

Lo que salió a la luz esta semana

El 11 de mayo de 2026, TestingCatalog y el usuario de X @Thomas16937378 extrajeron muestras recientes del flujo de generación de video de la aplicación móvil de Gemini. El texto de la ficha del modelo pasó de un marcador de posición (“Powered by Omni”) a una descripción completa del producto:

Crea con Gemini Omni: conoce nuestro nuevo modelo de video. Remezcla tus videos, edita directamente en el chat, prueba una plantilla y mucho más.

Con ello llegaron tres detalles concretos:

  • ID interno del modelo: bard_eac_video_generation_omni. “Bard EAC” es el espacio de nombres interno de la app Gemini para funciones experimentales; el sufijo _omni confirma que se trata como un modelo distinto y no como una variante de Veo.
  • Límite de 10 segundos en los clips generados en el nivel de vista previa actual. Veo 3.1 tiene un límite de 8s de forma nativa y 16s con extensión; Omni actualmente se sitúa entre ambos sin ninguna vía de extensión visible por el momento.
  • Nueva pestaña de límites de uso en la configuración de Gemini, lo que indica un despliegue medido por créditos en lugar de una cuota de suscripción mensual — coherente con cómo Google ha estado publicando funciones agénticas de mayor coste (Deep Research, Notebook Plus).

Esto supone una mejora significativa en la calidad de las evidencias. La filtración del 3 de mayo era solo texto de interfaz. Esto es texto de interfaz + endpoint funcional + resultados observables + una superficie de facturación.

Los dos videos de muestra que la gente ha visto

Ambas muestras provienen de la app de Gemini, ambas de usuarios con acceso AI Pro que pudieron invocar el modelo antes de una probable reversión. Vale la pena describirlas en detalle porque revelan a qué linaje de modelos pertenece Omni.

Muestra 1 — “Un profesor escribiendo una demostración matemática de identidades trigonométricas en una pizarra tradicional.” Los revisores calificaron el renderizado del texto como “notablemente bien” manejado — las ecuaciones de tiza eran legibles y parecían matemáticamente plausibles, en lugar de la sopa de símbolos que producían los modelos de video anteriores. El movimiento de manos y brazos resultaba natural. El análisis de chromeunboxed señaló “señales evidentes de IA en el resultado final” sin especificar cuáles — probablemente alguna combinación de microsacadas antinaturales, artefactos en la malla de la mano y geometría de la tiza ligeramente a la deriva.

Muestra 2 — “Dos hombres comiendo espaguetis en un restaurante de lujo.” Descrita como “bastante realista.” La prueba de enrollar pasta ha sido un benchmark informal durante un año porque pone a prueba todo lo que falla en el video en espacio latente: contacto entre utensilio y comida, movimiento similar a fluidos e identidad facial consistente a través de oclusiones. Omni la superó lo suficientemente bien como para destacarlo, aunque con el matiz de que el umbral para “aceptable” ha subido este año — Seedance 2.0 y Wan 2.7 superan esa barra de forma fiable.

Dos muestras no son un benchmark. Pero dos muestras en dos regímenes de dificultad distintos (texto en fotograma y física de contacto), ambas con revisores que señalan resultados sólidos aunque no perfectos, son suficientes para situar a Omni en el mismo nivel que Veo 3.1 — no por encima en fidelidad bruta, y claramente por debajo de Seedance 2.0.

Donde Omni realmente destaca: edición guiada por chat

El resultado interesante de la cobertura práctica de la semana es que la capacidad destacada de Omni no es la calidad de generación. Es la edición. Concretamente:

  • Eliminación de marcas de agua de clips de entrada, realizada mediante instrucciones de chat en lenguaje natural
  • Sustitución de objetos dentro de una escena (“cambia el coche rojo por uno azul”)
  • Reescritura de escenas mediante conversación por turnos — describe qué debe cambiar, el modelo devuelve una versión editada, itera

Esta es un área de capacidades significativamente diferente a la que exponen actualmente Seedance 2.0 Video-Edit o Wan 2.7 Edit. Esos modelos son excelentes en ediciones de instrucciones tipo comando (“elimina los auriculares”, “cambia el abrigo de la mujer a rojo”), pero no mantienen una conversación de edición de múltiples turnos contra un único clip fuente. El análogo más cercano hoy en día es el flujo de edición en lenguaje natural de Kling Omni Video O1, sobre el que escribimos en detalle cuando se lanzó.

Si Omni se lanza como un editor de video con chat como interfaz principal — no solo otro endpoint de texto a video — esa es la propuesta de valor única. Google tiene la infraestructura de LLM para hacer que la corrección por múltiples turnos funcione de forma nativa de una manera que la mayoría de los proveedores de modelos de video puros no tienen.

La historia del coste

El dato más llamativo: un probador informó que dos prompts de video consumieron el 86% de su cuota diaria de AI Pro. Eso es aproximadamente el 43% de un día Pro por clip — un perfil de coste en línea con los modelos de video de frontera, no con la generación de imágenes de nivel Flash.

Algunas implicaciones:

  1. El modelo de vista previa que se ejecuta en la app de Gemini es casi con certeza el nivel Pro/completo, no Flash. TestingCatalog especula que una variante Flash llegará al mismo tiempo, pero las muestras que hemos visto no provienen de ella.
  2. El consumo de créditos por clip a este ritmo equivale a algo así como $0,30–$0,50 por clip de 10s en equivalencia minorista, lo que es competitivo con Veo 3.1 ($0,50/s a precio de vista previa) pero más caro que Seedance 2.0 Fast.
  3. Google casi con certeza introducirá niveles de uso explícitos en la presentación del I/O — la nueva pestaña de límites de uso es una señal. Espera un nivel de coste flash para usuarios ocasionales y un nivel de pago por uso en AI Studio para desarrolladores.

Lo que ahora pensamos que es realmente Omni

Hace tres semanas había tres lecturas plausibles: rebranding de Veo, modelo de video separado de Gemini, o modelo de omni-modalidad completa. La evidencia del 11 de mayo acota eso:

  • ID de modelo separado (sufijo _omni, no _veo) descarta un cambio de nombre directo de Veo. Google normalmente no renombra endpoints de modelos existentes durante los despliegues de vista previa.
  • Posicionamiento de producto centrado en la edición — “remezclar, editar directamente en el chat” — no es el lenguaje que Google ha usado para Veo, que siempre se ha presentado como texto a video + extensión. Esto suena más a un modelo separado con un objetivo de entrenamiento diferente.
  • Sin evidencia de salida de imágenes en ninguna muestra filtrada. Si este fuera el modelo unificado de omni-modalidad que el nombre sugiere, cabría esperar ver generación de imágenes desde el mismo endpoint. Hasta ahora, cada filtración ha sido solo video.

La lectura más probable en este momento: Omni es un nuevo modelo de video entrenado con Gemini, que coexiste con Veo en lugar de reemplazarlo, con un posicionamiento de producto centrado en la edición. Nano Banana demuestra que Google está dispuesto a separar marcas dentro de la misma modalidad (la generación de texto a imagen funciona bajo los nombres tanto de Nano Banana como de Gemini 3 Flash Image). La coexistencia de Omni y Veo sigue ese patrón.

El sueño de omni-modalidad completamente unificada que el nombre sugiere probablemente sea todavía una generación futura. Lo que se lanzará la semana que viene — si es que se lanza la semana que viene — es un editor de video competitivo con la interfaz de chat nativa de LLM de Google incorporada.

Lo que esto cambia para la evaluación

Si estás construyendo algo que implica video con IA, tres cosas cambian en las próximas dos semanas:

  1. Añade un benchmark de edición a tu suite de evaluación. La mayoría de las evaluaciones de modelos de video son solo de texto a video. Si la propuesta de Omni es la edición guiada por chat, tu comparación no puede ser solo fidelidad de generación — necesitas una batería de prompts “edita este clip” que prueben la coherencia en múltiples turnos, la preservación de la identidad de los objetos durante las ediciones y la adherencia a las instrucciones en el segundo y tercer turno.
  2. Trata el triángulo Seedance 2.0 / Wan 2.7 / Omni como el conjunto de trabajo. Sora 2 y Veo 3.1 se entienden ahora mejor como referencias de generación anterior frente a este triángulo. Cada uno de los tres tiene una fortaleza distinta: Seedance lidera en fidelidad, Wan lidera en entradas de referencia multimodal, Omni (provisionalmente) lidera en edición por chat.
  3. Presupuesta para precios de nivel Pro. El dato del 43% de la cuota diaria es la señal más fuerte de la semana. Si tu flujo de trabajo implica generar clips a escala, el lanzamiento de nivel Flash importará más que el nivel Pro. Sigue ese anuncio específicamente.

La semana que viene

Google I/O abre el 19 de mayo de 2026. El espacio del keynote del martes es donde tradicionalmente se anuncian las novedades de Gemini y DeepMind. Una filtración previa al keynote tan controlada y completa — texto de ficha de modelo, videos de muestra, superficie de facturación, todo en una semana — es coherente con un lanzamiento que ya ha superado la revisión interna y está esperando en el calendario.

Las cuatro cosas a vigilar el día del evento:

  1. ¿Hay un nivel Flash, y cuánto cuesta?
  2. ¿Es real la propuesta de edición, o fue ruido de una sola muestra? En concreto, ¿muestra Google edición en múltiples turnos en directo sobre el escenario?
  3. ¿Cuál es la vía de acceso a la API? ¿AI Studio? ¿Vertex? ¿Ambos?
  4. Sincronización de audio: ninguna de las muestras filtradas aborda si Omni genera audio sincronizado como hace Veo 3.1. Si no lo hace, eso es una brecha real.

Prueba las alternativas actuales en WaveSpeedAI

Hasta que Omni se lance, el resto del campo de generación de video de 2026 está disponible en WaveSpeedAI bajo una sola API:

  • Seedance 2.0 — SOTA actual en fidelidad bruta, con variantes Fast para baja latencia
  • Wan 2.7 — el modelo de video rico en referencias de Alibaba
  • Kling V3.0 Pro — la opción de alta fidelidad de Kuaishou
  • Kling Omni Video O1 Edit — edición de video en lenguaje natural, el análogo actual más cercano a lo que se presenta como Omni
  • Sora 2 — la oferta de OpenAI
  • Veo 3.1 — el modelo de video actual de Google

Cuando Gemini Omni se lance públicamente, espera poder compararlo bajo la misma API en cuestión de días.