Демо Gemini Omni утекли в сеть — вот что на самом деле умеет новая видеомодель Google

Когда мы писали об утечке Omni 3 мая, вся история умещалась в одну строку пользовательского интерфейса. Восемь дней спустя картина значительно прояснилась. В мобильном приложении Gemini появились реальные образцы видео, сгенерированных моделью, утёк внутренний идентификатор модели (bard_eac_video_generation_omni), и в открытый доступ поступило достаточно практических впечатлений, чтобы сделать первые выводы.

Если кратко: Omni реальна, это почти наверняка новая модель, а не переименование Veo 3.1, и по параметрам, которые важны для разработчиков AI-видеопродуктов — качество изображения, редактирование, стоимость — её сильные и слабые стороны существенно отличаются от лидеров рейтинга. За семь дней до Google I/O 2026 (19–20 мая) вот что известно на данный момент.

Что появилось на этой неделе

11 мая 2026 года TestingCatalog и пользователь X @Thomas16937378 извлекли свежие образцы из потока генерации видео в мобильном приложении Gemini. Текст карточки модели сменился с заглушки («Powered by Omni») на полное описание продукта:

Create with Gemini Omni: meet our new video model. Remix your videos, edit directly in chat, try a template, and more.

Вместе с ним появились три конкретные детали:

Внутренний идентификатор модели: bard_eac_video_generation_omni. «Bard EAC» — внутреннее пространство имён приложения Gemini для экспериментальных функций; суффикс _omni подтверждает, что это отдельная модель, а не вариант Veo.
Ограничение в 10 секунд для сгенерированных клипов на текущем уровне предварительного просмотра. Veo 3.1 ограничена 8 секундами нативно и 16 секундами с расширением; Omni пока находится между ними без видимой возможности расширения.
Новая вкладка лимитов использования в настройках Gemini, указывающая на выпуск с кредитным учётом, а не с помесячной квотой подписки — соответствует тому, как Google выпускала более дорогостоящие агентские функции (Deep Research, Notebook Plus).

Это существенное повышение качества доказательств. Утечка от 3 мая представляла собой только текст интерфейса. Теперь это текст интерфейса + работающая конечная точка + наблюдаемые результаты + биллинговая поверхность.

Два образца видео, которые люди увидели

Оба образца получены из приложения Gemini, оба от пользователей с доступом AI Pro, которые смогли обратиться к модели до предполагаемого отката. Стоит описать их подробно, поскольку они показывают, к какой линейке моделей принадлежит Omni.

Образец 1 — «Профессор пишет математическое доказательство тригонометрических тождеств на традиционной доске.» Рецензенты отметили «исключительно хорошую» передачу текста — меловые уравнения были разборчивы и выглядели математически правдоподобно, в отличие от набора символов, который выдавали более ранние видеомодели. Движения рук и рук выглядели естественно. В обзоре chromeunboxed всё же отмечались «очевидные признаки ИИ в конечном результате» без конкретики — вероятно, какое-то сочетание неестественных микросаккад, артефактов сетки рук и слегка смещающейся геометрии мела.

Образец 2 — «Двое мужчин едят спагетти в дорогом ресторане». Описан как «довольно реалистичный». Тест с накручиванием пасты в течение года служит неформальным ориентиром, поскольку он нагружает всё, что идёт не так в видео в латентном пространстве: контакт приборов с едой, движение, похожее на жидкость, и постоянную идентичность лица при окклюзии. Omni справилась достаточно хорошо, чтобы это было отмечено, но снова с оговоркой, что планка «приемлемого» в этом году повысилась — Seedance 2.0 и Wan 2.7 оба стабильно её преодолевают.

Два образца — это не тест. Но два образца в двух разных режимах сложности (текст в кадре и физика контакта), оба с рецензентами, отметившими сильные, но не безупречные результаты, достаточны, чтобы поместить Omni в тот же уровень, что и Veo 3.1 — не выше по сырой точности, и явно ниже Seedance 2.0.

Где Omni действительно лидирует: редактирование через чат

Интересный результат недельного практического обзора состоит в том, что выдающаяся возможность Omni — не качество генерации. Это редактирование. В частности:

Удаление водяных знаков из входных клипов посредством инструкций на естественном языке в чате
Замена объектов в сцене («замени красную машину синей»)
Переписывание сцен через диалог — опишите, что должно измениться, модель возвращает отредактированную версию, и так по кругу

Это существенно иная область, чем та, которую сейчас открывают Seedance 2.0 Video-Edit или Wan 2.7 Edit. Эти модели отлично справляются с редактированием по инструкциям в стиле команд («удали наушники», «смени пальто женщины на красное»), но не поддерживают многоходовой диалог по редактированию для одного исходного клипа. Ближайший аналог сегодня — поток редактирования на естественном языке в Kling Omni Video O1, о котором мы писали подробно при его выпуске.

Если Omni действительно выйдет как видеоредактор с приоритетом чата — а не просто ещё одна конечная точка для генерации видео из текста — это и будет историей о её уникальном ценностном предложении. У Google есть стек LLM для нативной поддержки многоходовой коррекции так, как большинство поставщиков чистых видеомоделей не могут.

История стоимости

Самая показательная точка данных: один тестировщик сообщил, что два видеозапроса израсходовали 86% его дневной квоты AI Pro. Это примерно 43% дня Pro на клип — профиль стоимости, соответствующий фронтирным видеомоделям, а не генерации изображений уровня Flash.

Несколько выводов:

Предварительная модель, работающая в приложении Gemini, почти наверняка относится к уровню Pro/полный, а не Flash. TestingCatalog предполагает, что вариант Flash появится одновременно, но увиденные образцы не из него.
Расход кредитов на клип при такой ставке соответствует чему-то вроде $0,30–$0,50 за 10-секундный клип в розничном эквиваленте, что конкурентоспособно с Veo 3.1 ($0,50/с по ценам предварительного просмотра), но дороже Seedance 2.0 Fast.
Google почти наверняка представит явные уровни использования на анонсе I/O — новая вкладка лимитов использования говорит об этом. Ожидайте уровень по цене Flash для обычных пользователей и уровень с оплатой по мере использования в AI Studio для разработчиков.

Что, по нашему мнению, Omni на самом деле собой представляет

Три недели назад существовало три правдоподобных прочтения: ребрендинг Veo, отдельная видеомодель Gemini или полная омни-модальная модель. Доказательства от 11 мая сужают этот круг:

Отдельный идентификатор модели (суффикс _omni, а не _veo) исключает прямой ребрендинг Veo. Google обычно не переименовывает существующие конечные точки модели во время предварительных выпусков.
Позиционирование продукта с приоритетом редактирования — «remix, edit directly in chat» — это не язык, который Google использовала для Veo, которая всегда подавалась как генерация видео из текста + расширение. Это больше похоже на отдельную модель с другой целью обучения.
Нет свидетельств вывода изображений ни в одном из утечённых образцов. Если бы это была объединённая омни-модальная модель, которую предполагает название, можно было бы ожидать появления генерации изображений с той же конечной точки. Пока что каждая утечка касается только видео.

Наиболее вероятная интерпретация на данный момент: Omni — это новая видеомодель, обученная Gemini, существующая рядом с Veo, а не заменяющая её, с позиционированием продукта с приоритетом редактирования. Nano Banana показывает, что Google готова разделять бренды в рамках одной модальности (генерация текста в изображение работает под именами Nano Banana и Gemini 3 Flash Image). Сосуществование Omni и Veo повторяет эту схему.

Полностью объединённая омни-модальная мечта, которую предполагает название, вероятно, остаётся делом будущего поколения. То, что выйдет на следующей неделе — если выйдет — это конкурентоспособный видеоредактор с нативно встроенной LLM-поверхностью чата Google.

Что это меняет для оценки

Если вы разрабатываете что-либо, связанное с AI-видео, в следующие две недели изменятся три вещи:

Добавьте тест редактирования в свой набор оценок. Большинство тестов видеомоделей охватывают только генерацию видео из текста. Если предложение Omni — редактирование через чат, ваше сравнение не может ограничиваться точностью генерации — вам нужна серия запросов «отредактируй этот клип», проверяющих многоходовую согласованность, сохранение идентичности объектов при редактировании и следование инструкциям на втором и третьем ходах.
Рассматривайте треугольник Seedance 2.0 / Wan 2.7 / Omni как рабочий набор. Sora 2 и Veo 3.1 теперь лучше всего понимать как ориентиры предыдущего поколения по сравнению с этим треугольником. Каждый из трёх имеет отличительную силу: Seedance лидирует по точности, Wan лидирует по мультимодальным эталонным входным данным, Omni (предположительно) лидирует по редактированию через чат.
Закладывайте бюджет на ценообразование уровня Pro. Данные о 43% дневной квоты — самый громкий сигнал недели. Если ваш рабочий процесс предполагает массовую генерацию клипов, выпуск уровня Flash будет важнее уровня Pro. Следите конкретно за этим анонсом.

Предстоящая неделя

Google I/O открывается 19 мая 2026 года. Слот вторничного основного доклада — это место, где традиционно появляются анонсы Gemini и DeepMind. Такая контролируемая, такая полная предзапусковая утечка — текст карточки модели, образцы видео, биллинговая поверхность — всё за одну неделю — соответствует запуску, который уже прошёл внутреннюю проверку и ждёт своей даты в календаре.

Четыре вещи, на которые стоит обратить внимание в этот день:

Будет ли уровень Flash, и сколько он будет стоить?
Реально ли предложение редактирования, или это был шум от одного образца? Конкретно: покажет ли Google многоходовое редактирование вживую на сцене?
Каков путь к API? AI Studio? Vertex? Оба?
Синхронизация аудио: ни один из утечённых образцов не затрагивает вопрос о том, генерирует ли Omni синхронизированное аудио так же, как Veo 3.1. Если нет — это существенный пробел.

Попробуйте текущие альтернативы на WaveSpeedAI

Пока Omni не вышла, остальные видеогенераторы 2026 года доступны на WaveSpeedAI через единый API:

Seedance 2.0 — текущий SOTA по сырой точности, с вариантами Fast для низкой задержки
Wan 2.7 — богатая эталонными данными видеомодель Alibaba
Kling V3.0 Pro — высококачественный вариант от Kuaishou
Kling Omni Video O1 Edit — редактирование видео на естественном языке, ближайший текущий аналог того, чем позиционируется Omni
Sora 2 — предложение OpenAI
Veo 3.1 — текущая видеомодель Google

Когда Gemini Omni выйдет публично, ожидайте сравнения под тем же API в течение нескольких дней.

Что появилось на этой неделе

Два образца видео, которые люди увидели

Где Omni действительно лидирует: редактирование через чат

История стоимости

Что, по нашему мнению, Omni на самом деле собой представляет

Что это меняет для оценки

Предстоящая неделя

Попробуйте текущие альтернативы на WaveSpeedAI

Похожие статьи

GPT-5.6 появился в логах Codex от OpenAI — что это на самом деле означает

Полное руководство по Seedance 2.0: мультимодальное создание видео

Таинственная видеомодель Google «Omni»: что утечка интерфейса Gemini говорит нам накануне I/O 2026

Представляем PixVerse C1 «изображение в видео» на WaveSpeedAI

Представляем PixVerse C1 Transition на WaveSpeedAI

Представляем PixVerse C1 «текст в видео» на WaveSpeedAI