← Blog

Gemini Omni Flash ha llegado: video multimodal de 10 segundos, marca de agua SynthID, edición de audio retenida

Google lanzó Gemini Omni Flash en I/O 2026 — un único modelo que razona a través de texto, imagen, audio y video para producir una salida de video coherente con audio sincronizado. Esto es lo que se lanzó, lo que no, y cómo se diferencia de Veo.

By WaveSpeedAI 9 min read

La filtración de cadenas de interfaz del 3 de mayo y la filtración de la demo del 11 de mayo ya lo apuntaban. A partir del 19 de mayo de 2026, Gemini Omni Flash está en producción — el primer modelo público del framework Omni de Google, disponible de forma general el mismo día en la app de Gemini, Google Flow y YouTube Shorts. Genera clips de vídeo de 10 segundos con audio sincronizado a partir de un único prompt multimodal, y permite editar esos clips mediante chat. De forma importante, no permite editar el habla ni el audio dentro de los vídeos generados — esa capacidad está siendo retenida deliberadamente.

A continuación se detalla lo que realmente se lanzó, lo que las filtraciones previas al lanzamiento pasaron por alto, y cómo Omni Flash se posiciona frente a Veo, Sora 2 y Seedance 2.0 en decisiones de producción.

Lo que se lanzó

DetalleConfirmado
Nombre del modeloGemini Omni Flash
Duración de generación10 segundos, con audio sincronizado
EntradasTexto + imagen + audio + vídeo (cualquier combinación)
SalidaUn vídeo coherente — razonado entre las entradas, no ensamblado
EdiciónChat conversacional (“cambia la iluminación”, “cambia el perro por un gato”)
Marca de aguaSynthID incorporado en cada salida
Distribución (consumidor)App Gemini, YouTube Shorts, YouTube Create, Flow
Distribución (suscriptores de pago)Gemini AI Plus ($7.99/mes), Pro, Ultra
Distribución (API para desarrolladores)“En las próximas semanas”
Variante de gama altaOmni Pro planificado, sin fecha de lanzamiento

El límite de 10 segundos es la decisión de producto más interesante. La razón declarada por Google en el escenario: “no es una limitación del modelo, sino una decisión basada tanto en el deseo de ponerlo en manos de más personas como en la anticipación de que la mayoría de los usuarios no querrán hacer vídeos mucho más largos todavía.” Es una postura de lanzamiento más cautelosa que el límite de 8 segundos de Veo 3.1, que era un techo arquitectónico. Omni Flash presumiblemente puede ir más largo en el momento en que Google relaje la política.

Lo que nuestra cobertura previa al lanzamiento acertó y erró

Acertamos:

  • Omni es un nuevo modelo, no una reimaginación de Veo. La arquitectura y la superficie del producto son claramente distintas.
  • Posicionamiento del producto centrado en la edición. La reescritura conversacional de escenas fue el énfasis de la demo.
  • Venía una división de niveles Flash + Pro.
  • La sincronización de audio era real y se lanzó el primer día.

Erramos:

  • El encuadre de “por detrás de Seedance 2.0 en fidelidad bruta” de la filtración del 11 de mayo no está respaldado por nada de lo que Google mostró en el escenario. Las demos del lanzamiento (un explicativo de arcilla sobre el plegamiento de proteínas; una canica rebotando con efectos de sonido precisos físicamente) fueron elegidas específicamente para enfatizar la física de contacto, los materiales, la narración en voz en off y la narrativa en varios pasos — categorías en las que Seedance ha tenido puntos débiles medibles. Sin benchmarks independientes no podemos decir que Omni lidera, pero el encuadre de “por detrás” fue prematuro.
  • El dato del coste del 43% de la cuota diaria de las filtraciones del 11 de mayo. El precio del primer día es ahora por suscripción ($7.99/mes como nivel inicial) más acceso gratuito a través de YouTube Shorts y YouTube Create. La historia del coste por clip ha sido reemplazada por una historia de volumen de distribución.

Las cuatro cosas que hacen a Omni Flash diferente de Veo

Esta es la pregunta más importante para las decisiones de producción, y hay respuestas claras.

1. Entradas

Veo 3.1: texto → vídeo. Imagen → vídeo. Eso es todo.

Omni Flash: texto + imagen + audio + vídeo, todo en un único prompt, con el modelo razonando entre ellos en lugar de concatenarlos. Puedes darle una imagen de referencia de un personaje, un archivo de audio del diálogo que quieres que digan, y un vídeo de la iluminación que deseas, y obtener una salida que resuelve las tres restricciones.

2. Edición

Veo 3.1: regeneración con prompt de texto. Cada edición es una generación nueva con un prompt modificado.

Omni Flash: edición incremental basada en chat. “Haz la iluminación más cálida.” — y la siguiente respuesta edita el clip existente preservando todo lo demás. Esta es la superficie donde la arquitectura nativa de LLM rinde frutos.

3. Audio

Veo 3.1: audio sincronizado con el vídeo.

Omni Flash: audio sincronizado más la capacidad de usar audio de entrada como restricción de generación. Pero — y esto importa — la edición de audio y voz de los vídeos generados está retenida. Google está lanzando el modelo en modo “sin edición de voz en off” por razones de seguridad que obviamente tienen que ver con la exposición a deepfakes en año electoral. Se espera que esto se relaje una vez que la política y la infraestructura de detección se asienten.

4. Distribución

Veo 3.1: API de Vertex, AI Studio y la app de Veo con precios premium.

Omni Flash: acceso gratuito a través de YouTube Shorts y YouTube Create a partir de esta semana. El acceso de pago comienza con el plan Google AI Plus a $7.99/mes. Esta es una estrategia de comercialización completamente diferente — Google está usando la distribución de YouTube para poner Omni frente a cientos de millones de usuarios sin coste marginal.

Lo que la combinación SynthID + retención de audio te dice

Google está tratando Omni Flash como un producto de consumo primero y un producto para desarrolladores después. Las dos decisiones de política que lo dejan claro:

  1. SynthID no es opcional. Cada salida tiene una marca de agua imperceptible verificable a través de la app de Gemini, Chrome y Search. No hay ningún parámetro en la API para desactivarlo. Para casos de uso comercial que necesiten salida limpia, estás en la capa equivocada hasta que llegue la API para desarrolladores.
  2. La edición de audio/voz está retenida. Esta es la capacidad de mayor riesgo que soporta la arquitectura — la posibilidad de modificar la voz en un vídeo existente. Retenerla señala la lectura que hace Google de dónde se sitúa el riesgo regulatorio y reputacional. No planifiques flujos de trabajo de producción en torno a capacidades que aún no se han lanzado.

El anuncio de “Omni Pro” refuerza esto. Google dijo explícitamente que Pro llegará “cuando veamos un cambio significativo por encima de Flash” — no “tendremos una fecha de lanzamiento pronto.” Esa formulación es coherente con un modelo que no ha terminado de entrenarse, no con un modelo que está en revisión de política.

Dónde deja esto a los desarrolladores hoy

Tres lecturas concretas:

  1. Para herramientas creativas orientadas al consumidor, Omni Flash es el nuevo estándar dentro de la superficie de distribución de Google. Si tu producto es una app de creación de vídeo dirigida a usuarios finales, necesitarás probarlo específicamente contra él.
  2. Para pipelines de desarrollo, espera. La API llega “en las próximas semanas” — lo que podría significar 2 semanas u 8. Sin acceso a la API y sin un calendario de lanzamiento de Omni Pro, el campo de modelos de vídeo de nivel productivo realmente no ha avanzado aún. Veo 3.1, Seedance 2.0 y Sora 2 siguen siendo las opciones de producción.
  3. Para la evaluación, prepara tus prompts ahora. Elige tres categorías de prueba: física de contacto (la demo de la canica), narración en voz en off (la demo de arcilla) y edición conversacional sin degradación (el tercer turno de una sesión de edición de múltiples turnos). Ejecútalos con tu modelo de producción actual para tener la línea base antes de que Omni Flash aparezca bajo tu clave de API.

Qué vigilar

Cuatro señales en las próximas dos a cuatro semanas:

  1. El lanzamiento de la API para desarrolladores. Precios, límites de tasa y si la superficie de Vertex AI refleja la de AI Studio. La pregunta difícil: ¿las llamadas a la API incorporan SynthID, y es eso configurable para cuentas comerciales?
  2. Duraciones de vídeo más largas. El límite de 10 segundos es una decisión de política. La primera vez que alguien genere un clip de 30 segundos en la práctica, el avance señalará la confianza de Google en el pipeline de seguridad.
  3. El regreso de la edición de audio. Cuando esto llegue, será el momento en que el modelo de riesgo de deepfakes haya superado la revisión interna. Esa es la historia de capacidad más interesante que el propio modelo.
  4. El perfil real de benchmarks de Omni Pro. La formulación de “cambio significativo por encima de Flash” es la misma cobertura que usó Anthropic antes de Opus — lo que significa que debemos esperar un salto de capacidad significativo en lugar de un lanzamiento incremental. Atentos a la ficha técnica del sistema.

Cuando llegue la API para desarrolladores y Omni Flash sea accesible junto al resto de la frontera de generación de vídeo, espera compararlo bajo una sola clave — junto a Veo 3.1, Seedance, Sora 2 y Kling Omni Video O1. La actual línea de modelos de Google en WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image y el resto — está disponible hoy bajo esa misma API.

Fuentes: TechCrunch sobre Gemini Omni, The Tech Portal resumen de I/O, Technobezz sobre Omni Flash, TechTimes sobre la retención de audio, 9to5Google noticias de I/O 2026.