Что такое Omni Flash? Возможности, доступ и руководство для разработчиков

Привет, меня зовут Дора. Утром на I/O 2026 я читала публикацию о развёртывании и страницы с ценами, а затем открыла приложение Gemini, чтобы увидеть, что действительно вышло, а что всё ещё помечено как «в ближайшие недели». Это — заметки по итогам, для разработчиков и продуктовых команд, которые решают, меняет ли Omni Flash что-то в их пайплайне.

Коротко: модель реальна и уже работает в потребительских приложениях. Developer API — нет. Этот разрыв важнее, чем демо.

Что такое Omni Flash на самом деле (первая модель серии Omni от Google)

Итак, что конкретно представляет собой Omni Flash? Gemini Omni Flash — первая модель в новом семействе Omni от Google, анонсированная 19 мая 2026 года на I/O. Google DeepMind позиционирует её как «создание чего угодно из любого входного формата — начиная с видео». «Начиная с» здесь важно — долгосрочная дорожная карта охватывает маршрутизацию any-to-any по модальностям, но сегодня поставлен мультимодальный ввод, порождающий видеовывод. Вывод изображений и аудио есть в публичной дорожной карте, но не в продукте.

Место в дорожной карте Gemini Omni

Omni позиционируется как семейство, а не отдельная модель. Flash — первый шаг, рассчитанный на потребителей. Google DeepMind подтвердила Omni Pro более высокого уровня без даты выхода — Николь Брихтова рассказала TechCrunch, что Pro выйдет «когда мы почувствуем, что достигли качественного скачка по сравнению с Flash». Читайте это как: не скоро.

Почему Google называет её «видеоверсией Nano Banana»

Nano Banana — модель Google для генерации и редактирования изображений, запущенная в 2025 году, — задала шаблон того, чем Omni пытается стать для видео: разговорное редактирование, сохранение идентичности между итерациями, низкий порог входа для нетехнических пользователей. Официальный пост Google, представляющий Omni, явно прослеживает эту преемственность. Архитектурно Google DeepMind Omni Flash рассуждает по модальностям в одном прямом проходе, а не передаёт управление между специализированными системами. Насколько это даёт лучшие результаты по сравнению с подходом Veo-плюс-аудио-пайплайн — буду следить. Демо тщательно отобраны. Реальные рабочие процессы — нет.

Возможности, подтверждённые на запуске

Это возможности Omni Flash, подтверждённые в продукте сегодня, а не то, что было анонсировано.

Мультимодальный ввод (текст, изображение, видео, аудио)

Можно комбинировать любые из этих форматов в одном промпте. Модель воспринимает их как единое описание сцены, а не как набор активов. Это самая чистая часть анонса — и то, что отличает её от пайплайна text-to-video в Veo.

Видеовывод длиной до 10 секунд с нативным аудио

Клипы ограничены 10 секундами. Брихтова описала это как решение о развёртывании, а не как потолок модели — способ контролировать вычислительный спрос по мере расширения доступа. Аудио генерируется синхронно с видео, а не добавляется после. В демо с отскакивающим мрамором, которое технический директор Google Корай Кавукчуоглу показал журналистам, звуки удара и звон появлялись автоматически. Важно отметить: независимые тестировщики сообщили TechTimes, что исходное качество генерации может уступать ByteDance Seedance 2.0 и Alibaba Wan 2.7, даже если слой редактирования сильнее.

Разговорное редактирование на естественном языке

Каждая инструкция опирается на предыдущую. «Сделай скульптуру из пузырей» — применено, состояние сохранено, следующая инструкция работает с новым состоянием. Это — сдвиг в рабочем процессе, наиболее вероятно экономящий время в производстве: меньше переписываний промптов, меньше запусков с нуля.

Вставка внешности и согласованность сцены

Функция Avatar позволяет создать цифровую версию себя (онбординг требует произнесения последовательности цифр на камеру — проверка на дипфейк, заимствованная у прекращённого OpenAI Sora Cameos). После сохранения аватар сохраняется между генерациями.

Водяной знак SynthID и ограничения безопасности

Каждый вывод несёт невидимый водяной знак SynthID, верифицируемый через приложение Gemini, Chrome и Google Search. SynthID теперь отметил более 100 миллиардов изображений и видео, созданных ИИ. Свободное редактирование голоса и внешности пока недоступно — официальная причина Google — ответственное развёртывание.

Где это доступно сегодня

Три поверхности с разными ограничениями.

Поверхность	Кто получает доступ	Вычислительный бюджет
Приложение Gemini	Подписчики AI Plus, Pro, Ultra по всему миру	Еженедельные лимиты на основе вычислений (новая модель)
Google Flow	AI Plus / Pro / Ultra	200 / 1 000 / 10 000–25 000 кредитов Flow в месяц
YouTube Shorts и YouTube Create	Бесплатные пользователи	Развёртывается на этой неделе

Приложение Gemini (ограничения бесплатного уровня)

Бесплатные пользователи не получают доступ к модели в приложении Gemini. Бесплатная точка входа — YouTube. Платные уровни начинаются с AI Plus ($7,99/месяц).

Google Flow (выделение кредитов Pro/Ultra)

Flow — это место, где живут реальные рабочие процессы: многоклиповая композиция, библиотеки компонентов, пользовательские голоса, редактирование существующего видео. Документация поддержки Google Flow перечисляет функции, эксклюзивные для этой модели: клипы по 10 секунд (против 4/6/8 секунд на младших моделях), редактирование загруженного видео, создание пользовательских голосов. Стоимость кредитов за действие варьируется в зависимости от длины клипа и типа редактирования — экономику кредитов рассмотрю в отдельном материале. Коротко: 200 кредитов (Plus) — для исследования; серьёзные итерации требуют Pro или выше.

YouTube Shorts и YouTube Create

Неожиданный ход с дистрибуцией. Бесплатный доступ к модели переднего края — пусть и ограниченный — это необычно. Стратегическая логика: OpenAI в начале 2026 года перевёл Sora в режим только API, освободив место в потребительском сегменте видео. Google заполняет его охватом, а не пиковым качеством.

Что пока недоступно

Developer API на Vertex AI (анонсирован, но не GA)

По состоянию на май 2026 года developer API не находится в общей доступности. Блог Google сообщает, что развёртывание для разработчиков и корпоративных клиентов через API придёт «в ближайшие недели». Корпоративный разбор от VentureBeat говорит прямо: до перехода Vertex API в GA, Omni фактически остаётся потребительским и просьюмерским инструментом. Если вы планируете интеграцию, рассматривайте API как пункт планирования на Q3 2026, а не текущую опцию.

Генерация видео большей длительности

10 секунд — публичный потолок. Google говорит, что большая длительность в планах. Сроков нет.

Свободное редактирование голоса и внешности

Вы можете использовать собственный аватар. Свободно редактировать произвольные голоса или внешность в загруженных видео нельзя. Это намеренное ограничение безопасности, а не пробел в возможностях.

Ещё несколько вещей, циркулирующих в публикациях о запуске, которые Google официально не подтвердила: ограничение вывода 720p, время генерации 60–90 секунд, именованные пакеты шаблонов аватаров. Относитесь к ним как к непроверенным.

Место в ландшафте генерации видео

Замена Veo в ряде продуктовых поверхностей

Несколько изданий сообщили, что Google Omni Flash фактически заменяет Veo в Flow и приложении Gemini. Veo не устарел — Veo 3.1 по-прежнему доступен через API, и для чистого text-to-video с надёжностью API-уровня это сегодняшний рабочий вариант. Но в собственных потребительских поверхностях Google новая модель, по имеющимся сведениям, стала дефолтной. История миграции от Google: сейчас используйте Veo, планируйте переход, когда выйдет GA.

Разговорное редактирование vs генерация только по промпту

В этом и состоит архитектурная ставка. Большинство текущих моделей видео, включая Veo, рассматривают каждую генерацию как новый проход. Редактирования Omni — с сохранением состояния. Для рабочих процессов, предполагающих итерации (большинство профессиональных), это меняет математику кредитов на финальный клип. Реально ли это работает — зависит от того, насколько хорошо модель сохраняет намерение между правками. Я тестировала недостаточно долго, чтобы утверждать.

На что обратить внимание разработчикам и продуктовым командам

Сигналы о сроках API и ценообразовании

Developer API — ключевой фактор для любой производственной интеграции. Два источника для мониторинга: документация Gemini API — появление реального SKU, и страница ценообразования Vertex AI — структура биллинга по токенам или по секундам. Ценообразование по токенам — стандарт Google для семейства Gemini — упростит прогнозирование по сравнению с ценообразованием за клип.

Вероятное появление на платформах агрегации

Как только выйдет API, ожидайте появления модели на платформах единого доступа в течение нескольких недель. Если вы уже интегрированы через мультимодельный API-слой, стоимость миграции с Veo 3.1 должна быть небольшой. Если вы напрямую интегрированы с одним провайдером, аргументы в пользу добавления слоя агрегации становятся сильнее с каждым кварталом — этот запуск ещё один аргумент в этом направлении.

FAQ

Доступен ли API Omni Flash для разработчиков?

Нет. По состоянию на май 2026 года developer API не находится в общей доступности. Google говорит, что развёртывание через Gemini API и Vertex AI придёт «в ближайшие недели». До тех пор программный доступ невозможен.

Какова максимальная длина видео, которую может генерировать Omni Flash?

10 секунд. Google DeepMind заявила, что это решение о развёртывании, а не архитектурный предел модели. Большая длительность запланирована без публичных сроков.

Заменяет ли Omni Flash полностью модель Veo от Google?

Нет. Veo 3.1 остаётся доступным через API для задач text-to-video. В собственных потребительских поверхностях Google (приложение Gemini, Flow) новая модель, по имеющимся сведениям, стала дефолтной. Для производственных API-интеграций сегодня рабочим вариантом является Veo.

Могу ли я использовать вывод Omni Flash в коммерческих целях?

С учётом Политики запрещённого использования генеративного ИИ Google и условий вашего уровня подписки. Коммерческое использование в целом разрешено на платных уровнях, но конкретные сценарии (контент с изображением личности, IP третьих сторон, регулируемые отрасли) требуют проверки по актуальной политике Google. Не принимайте безоговорочное «да» ни от кого.

Ставит ли Omni Flash водяной знак на каждое сгенерированное видео?

Да. Все выводы несут незаметный водяной знак SynthID, верифицируемый через приложение Gemini, Chrome и Google Search. Отказаться нельзя.

Доступен ли Omni Flash за пределами собственных приложений Google?

Пока нет. Текущий доступ ограничен приложением Gemini, Google Flow, YouTube Shorts и приложением YouTube Create. После выхода developer API ожидайте доступности через Vertex AI и, вероятно, на сторонних платформах агрегации вскоре после этого.

Итог

Для большинства продуктовых команд практический ответ на этой неделе таков: пока ничего не меняется. Продолжайте работу с Veo 3.1. Точка принятия решения — выход API в GA: когда это произойдёт, примитив разговорного редактирования заслуживает реальной оценки, особенно если ваш пайплайн уже несёт издержки многопроходной генерации видео.

Для потребительского экспериментирования приложение Gemini и Flow — точки входа на платных уровнях; YouTube Shorts — бесплатный путь. Стоит потратить полчаса на практику, чтобы сверить собственные ожидания по качеству с демо.

Одно уточнение: это Gemini Omni Flash от Google. Существует отдельный Qwen3.5-Omni-Flash от Alibaba — другой вендор, другая дорожная карта. Не путайте их.

На сегодня это всё. Вернусь к теме, когда выйдет API.

Предыдущие публикации: