Gemini Omni Flash выпущен: мультимодальное видео за 10 секунд, водяные знаки SynthID, редактирование аудио отложено

Утечка UI-строк от 3 мая и утечка демо от 11 мая указывали именно на это. По состоянию на 19 мая 2026 года Gemini Omni Flash запущен — первая публичная модель в рамках фреймворка Omni от Google, ставшая общедоступной в тот же день в приложении Gemini, Google Flow и YouTube Shorts. Она генерирует 10-секундные видеоклипы с синхронизированным аудио из одного мультимодального промпта и позволяет редактировать эти клипы через чат. Принципиально важно: она не позволяет редактировать речь или аудио внутри сгенерированных видео — эта возможность намеренно придержана.

Далее — что реально вышло, что предзапускные утечки не предугадали, и как Omni Flash позиционируется относительно Veo, Sora 2 и Seedance 2.0 при принятии производственных решений.

Что вышло

Параметр	Подтверждено
Название модели	Gemini Omni Flash
Длина генерации	10 секунд, с синхронизированным аудио
Входные данные	Текст + изображение + аудио + видео (в любой комбинации)
Выходные данные	Одно цельное видео — с рассуждением по всем входным данным, не склеенное
Редактирование	Диалоговый чат («измени освещение», «замени собаку на кошку»)
Водяной знак	SynthID встроен в каждый результат
Дистрибуция (потребители)	Приложение Gemini, YouTube Shorts, YouTube Create, Flow
Дистрибуция (платные подписчики)	Gemini AI Plus ($7.99/мес), Pro, Ultra
Дистрибуция (API для разработчиков)	«Ближайшие недели»
Более мощный вариант	Omni Pro запланирован, дата выхода не объявлена

Ограничение в 10 секунд — самое интересное продуктовое решение. Официальная позиция Google на сцене: «это не ограничение модели, а решение, основанное как на желании дать доступ большему числу людей, так и на предположении, что большинство пользователей пока не захотят делать более длинные видео». Это более мягкая позиция при выкатке, чем 8-секундный потолок у Veo 3.1, который был архитектурным ограничением. Omni Flash, вероятно, может генерировать более длинное видео в любой момент, как только Google снимет это ограничение.

Что наши предзапускные материалы предсказали верно, а что нет

Верно:

Omni — это новая модель, а не ребрендинг Veo. Архитектура и продуктовая поверхность принципиально отличаются.
Позиционирование продукта с упором на редактирование. Демо было сфокусировано на диалоговом переписывании сцен.
Разделение на уровни Flash + Pro действительно произошло.
Синхронизация аудио была реальной и появилась в день запуска.

Неверно:

Формулировка «уступает Seedance 2.0 по чистому качеству» из утечки 11 мая ничем не подтверждается по итогам показанного Google на сцене. Запущенные демо (анимация в стиле пластилина с объяснением фолдинга белков; мрамор с физически точными звуковыми эффектами) были специально подобраны для демонстрации контактной физики, материалов, закадрового голоса и многошаговой нарративной структуры — категорий, в которых у Seedance были измеримые слабые места. Без независимых бенчмарков мы не можем утверждать, что Omni лидирует, но формулировка «уступает» была преждевременной.
Данные о стоимости в 43% суточной квоты из утечек 11 мая. Ценообразование в день запуска теперь основано на подписке ($7.99/мес стартовый уровень) плюс бесплатный доступ через YouTube Shorts и YouTube Create. История о стоимости за клип сменилась историей об объёмах дистрибуции.

Четыре отличия Omni Flash от Veo

Это главный вопрос для производственных решений, и на него есть чёткие ответы.

1. Входные данные

Veo 3.1: текст → видео. Изображение → видео. Только это.

Omni Flash: текст + изображение + аудио + видео, всё в одном промпте, при этом модель рассуждает по всем входным данным, а не объединяет их по очереди. Можно передать референсное изображение персонажа, аудиофайл с нужным диалогом и видео с нужным освещением — и получить единый результат, который учитывает все три ограничения.

2. Редактирование

Veo 3.1: перегенерация с текстовым промптом. Каждое редактирование — это новая генерация с изменённым промптом.

Omni Flash: инкрементальное редактирование через чат. «Сделай освещение теплее» — и следующий ответ редактирует существующий клип, сохраняя всё остальное. Именно здесь проявляется преимущество архитектуры, нативной для LLM.

3. Аудио

Veo 3.1: синхронизированное аудио к видео.

Omni Flash: синхронизированное аудио плюс возможность использовать входное аудио как ограничение для генерации. Но — и это важно — редактирование аудио и речи в сгенерированных видео недоступно. Google выпускает модель в режиме «без редактирования закадрового голоса» по соображениям безопасности, которые очевидно связаны с риском дипфейков в предвыборный год. Ожидайте снятия этого ограничения после того, как политика и стек обнаружения устоятся.

4. Дистрибуция

Veo 3.1: Vertex API, AI Studio и приложение Veo по премиальным ценам.

Omni Flash: бесплатный доступ через YouTube Shorts и YouTube Create начиная с этой недели. Платный доступ начинается с $7.99/мес в рамках Google AI Plus. Это принципиально иная стратегия выхода на рынок — Google использует дистрибуцию YouTube, чтобы поставить Omni перед сотнями миллионов пользователей без предельных затрат.

О чём говорит комбинация SynthID и ограничения аудио

Google рассматривает Omni Flash прежде всего как потребительский продукт и лишь во вторую очередь как инструмент для разработчиков. Два политических решения, которые это ясно показывают:

SynthID не отключается. Каждый результат содержит незаметный водяной знак, верифицируемый через приложение Gemini, Chrome и Search. В API нет переключателя для его отключения. Для коммерческих сценариев, требующих чистого вывода, вы находитесь не на том уровне, пока не выйдет API для разработчиков.
Редактирование аудио/речи недоступно. Это наиболее рискованная возможность, которую поддерживает архитектура, — изменение голоса в существующем видео. Её придержка сигнализирует о том, как Google оценивает регуляторные и репутационные риски. Не стройте производственные процессы вокруг функций, которые ещё не выпущены.

Объявление «Omni Pro» это подкрепляет. Google прямо сказал, что Pro выйдет «когда мы увидим качественный скачок над Flash» — не «скоро объявим дату выхода». Такая формулировка соответствует модели, которая ещё не закончила обучение, а не модели, задержанной на этапе проверки политики.

Что это означает для разработчиков сегодня

Три конкретных вывода:

Для потребительских творческих инструментов Omni Flash — новый стандарт в экосистеме Google. Если ваш продукт — приложение для создания видео для конечных пользователей, вам нужно специально протестировать его.
Для конвейеров разработчиков — подождите. API выйдет «в ближайшие недели» — то есть это может быть 2 недели или 8. Без доступа к API и без сроков выхода Omni Pro поле production-grade видеомоделей фактически не изменилось. Veo 3.1, Seedance 2.0 и Sora 2 остаются производственными вариантами.
Для оценки — готовьте промпты прямо сейчас. Выберите три тестовые категории: контактная физика (демо с мрамором), закадровый нарратив (демо с пластилином) и диалоговое редактирование без деградации качества (третий ход в многоходовой сессии редактирования). Прогоните их через текущую производственную модель, чтобы иметь базовую линию до того, как Omni Flash появится под вашим API-ключом.

На что обращать внимание

Четыре сигнала в ближайшие две-четыре недели:

Запуск API для разработчиков. Ценообразование, лимиты запросов и то, совпадает ли поверхность Vertex AI с AI Studio. Главный вопрос: встраивают ли вызовы API SynthID, и можно ли это отключить для коммерческих аккаунтов?
Увеличение длины видео. 10-секундный лимит — политическое решение. Как только кто-то сгенерирует 30-секундный клип в свободном доступе, это будет сигнализировать об уверенности Google в конвейере безопасности.
Возвращение редактирования аудио. Когда это выйдет, это будет означать, что риск-модель дипфейков прошла внутреннюю проверку. Это более интересная история о возможностях, чем сама модель.
Реальный бенчмарк-профиль Omni Pro. Формулировка «качественный скачок над Flash» — та же хеджирующая оговорка, что Anthropic использовал перед Opus, — то есть стоит ожидать значительного прыжка в возможностях, а не инкрементального релиза. Следите за системной картой.

Когда выйдет API для разработчиков и Omni Flash станет доступен наряду с остальными передовыми инструментами генерации видео, ожидайте его сравнения под единым ключом — рядом с Veo 3.1, Seedance, Sora 2 и Kling Omni Video O1. Текущий набор моделей Google на WaveSpeedAI — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image и остальные — доступен уже сегодня через тот же API.

Источники: TechCrunch о Gemini Omni, The Tech Portal, обзор I/O, Technobezz об Omni Flash, TechTimes об ограничении аудио, 9to5Google, новости I/O 2026.

Что вышло

Что наши предзапускные материалы предсказали верно, а что нет

Четыре отличия Omni Flash от Veo

1. Входные данные

2. Редактирование

3. Аудио

4. Дистрибуция

О чём говорит комбинация SynthID и ограничения аудио

Что это означает для разработчиков сегодня

На что обращать внимание

Похожие статьи

Grok Imagine Video 1.5: Модель преобразования изображений в видео от xAI с нативным аудио

Vidu Q3 API: Устраните ключевые узкие места корпоративного ИИ-видео для глобальных разработчиков и B2B-команд

Что такое NVIDIA Cosmos3-Nano? 16B омни-модель мира для физического ИИ

Gemini Omni Flash vs Seedance 2.0 vs Kling 3.0: лучшая мультимодальная модель видеогенерации

Kling 3.0 Omni объяснён: мультикадровый сторибординг, встроенное аудио и в чём он превосходит Veo

Стратегия маркетплейса моделей Runway: что это значит для API AI-видео