Gemini 3.5 Pro и Flash: что нужно знать разработчикам

Знаете, I/O 2026 удивил меня тем, чего я не ожидал от релиза Gemini. Flash-модель вышла, флагманская — нет, и при этом Flash превзошла флагман прошлого квартала. Это вся история Gemini 3.5 Pro в одном предложении — правда, Pro ещё не вышел, поэтому половина того, что о нём говорят, — это домыслы. В этом материале я разделяю подтверждённые факты от анонсированного-но-непроверенного и рассказываю, что куда направлять, пока вы ждёте.

Я перегоняю продакшн-трафик между уровнями Gemini с начала линейки 3.x, так что буду конкретен насчёт идентификаторов моделей и цен. Где я чего-то не знаю — а не знаю я много, потому что Pro ещё не вышел — я так и скажу.

Что на самом деле вышло в Gemini 3.5 на Google I/O 2026

Keynote I/O состоялся 19 мая 2026 года. С семейством 3.5 произошли две вещи: одна модель вышла в релиз, другая получила дату и больше ничего.

3.5 Flash: GA 19 мая со стабильным API-идентификатором gemini-3.5-flash

Gemini 3.5 Flash вышел в general availability в тот же день, что и keynote. Не превью, не экспериментальный псевдоним — модель стабильна и вызывается как gemini-3.5-flash. Это важно для всех, кто обжёгся на миграции с preview-идентификаторов раньше. Согласно официальной странице модели Gemini 3.5 Flash от Google DeepMind, она работает с текстом, аудио, изображениями, кодом и видео. В день запуска она появилась в приложении Gemini, AI Mode в поиске, Gemini API в Google AI Studio, Vertex AI и Antigravity 2.0.

Для справки, технические характеристики: входное окно на 1 048 576 токенов, максимальный вывод 65 536 токенов, срез знаний — январь 2026 года. Динамическое мышление включено по умолчанию — модель сама решает, сколько вычислительных ресурсов потратить на каждую задачу, вместо того чтобы ждать, пока вы установите бюджет.

3.5 Pro: анонсирован на июнь, API-идентификатора пока нет

Pro получил одно предложение на сцене. Сундар Пичаи сказал, что модель проходит внутреннее тестирование и выйдет «в следующем месяце». Это июнь 2026 года. Обзор I/O 2026 от 9to5Google подтверждает ту же формулировку: Pro тестируется, выходит в следующем месяце, ничего более конкретного. Зал, по словам очевидцев, встретил задержку с раздражением — что говорит о том, что Pro и был главным ожиданием.

Нет API-идентификатора. Нет цен. Нет точной даты. Если вы сейчас строите что-то на Pro, вы строите на пресс-релизе.

Где прежняя иерархия уровней перевернулась

Вот на чём стоит остановиться подробнее. Старая ментальная модель была простой: Pro — для сложных задач, Flash — для пропускной способности. 3.5 Flash её разрушает. Он превосходит Gemini 3.1 Pro — флагман февраля 2026 года — по большинству бенчмарков, при этом стоит дешевле и работает быстрее. «Облегчённый» уровень теперь обгоняет премиальный уровень предыдущего поколения.

Так что вопрос, который Google поставил перед каждым разработчиком, неудобный: имеет ли смысл платить за Pro, если следующий Flash уже превзошёл ваш старый Pro? Для многих рабочих нагрузок честный ответ сейчас — нет. Я вернусь к тому, когда это всё ещё оправдано.

Что Gemini 3.5 Flash даёт в продакшне

Характеристики — это одно. Стоимость и реальная польза — другое.

Цены и профиль задержки в сравнении с 3.1 Pro

Цены Gemini 3.5 Flash — $1,50 за 1 млн входных токенов и $9,00 за 1 млн выходных на стандартном уровне. Кешированный ввод — $0,15 за 1 млн. Google заявляет, что 3.5 Flash генерирует токены примерно в 4 раза быстрее, чем другие фронтир-модели на своём уровне.

Честное предупреждение: это не дешёвый апгрейд, если вы переходите с Flash-Lite. Переход с тарифа $0,25 / $1,50 Flash-Lite на $1,50 / $9,00 — это примерно 6-кратный рост на выходных токенах. Вы платите за улучшения в агентных и мультимодальных задачах, а не за снижение стоимости. Если ваша задача — простое извлечение данных или маршрутизация, оставьте её на более дешёвом маршруте. (Цена выросла. Делать вид, что нет — нечестно.)

Результаты бенчмарков для агентов и написания кода

Цифры бенчмарков gemini 3.5, опубликованные Google, если принять их за чистую монету: 76,2% на Terminal-Bench 2.1 (программирование), 1656 Elo на GDPval-AA (эффективность агентных задач), 83,6% на MCP Atlas (надёжность использования инструментов в масштабе), 84,2% на CharXiv Reasoning (мультимодальное понимание).

Стандартная оговорка к бенчмаркам: результаты по конкретным задачам варьируются в зависимости от рабочей нагрузки, стратегии промптов и состава токенов. Позиция в таблице лидеров — это стартовая гипотеза, а не ваш продакшн-результат. Запустите собственную оценку, прежде чем доверять заголовку.

Мультимодальное понимание (ввод текста, изображений, аудио, видео)

Flash принимает на вход текст, изображения, аудио, видео и PDF, и вы можете комбинировать их в одном запросе. Официальная документация Gemini 3.5 Flash в Google AI Studio охватывает детали миграции — в том числе то, что Google Search, контекст URL, выполнение кода и пользовательские функции могут работать в одном вызове. Если вы раньше изощрялись с промптами chain-of-thought, чтобы вызвать рассуждение, документация говорит: бросьте это и используйте thinking_level.

Что модель не генерирует (ограничения по выводу изображений/видео/аудио)

Это та строка, которую люди чаще всего понимают неправильно, поэтому прочитайте дважды. Gemini 3.5 Flash принимает мультимодальный ввод и производит текстовый вывод. Он не генерирует изображения. Он не генерирует видео. Он не генерирует аудио. Мультимодальное понимание — это не мультимодальная генерация.

Если вам нужно генерировать видео, это Gemini Omni — отдельное семейство моделей, анонсированное Google на том же мероприятии, а не вариант 3.5. Computer Use на 3.5 Flash тоже не поддерживается; Google говорит оставаться на Gemini 3 Flash Preview для этого. Задачи генерации выходных данных и управления браузером направляйте в другое место. 3.5 Flash — это движок для рассуждений и понимания, и только.

Что известно и не известно о Gemini 3.5 Pro

Люди постоянно спрашивают, что будет делать Gemini 3.5 Pro. Большинство ответов в сети — это экстраполяция. Вот что есть на самом деле.

Подтверждено: окно запуска в июне, мультимодальный ввод

К чему Google реально обязался: Pro выходит в июне 2026 года, сейчас используется внутри компании и занимает место выше Flash в семействе 3.5 как уровень глубокого рассуждения. Обзор MacRumors I/O 2026 фиксирует то же самое — внутреннее тестирование, выход в следующем месяце. Это весь подтверждённый набор. Он невелик.

Не подтверждено: цены, API-идентификатор, точная дата релиза

Всё, что реально нужно разработчикам для интеграции, не подтверждено. Нет цен. Нет API-идентификатора модели. Нет конкретной даты релиза, кроме «июнь». Нет опубликованных бенчмарков специально для Pro — всё, что вы видите со сравнением 3.5 Pro с другими моделями, это умозаключение, а не данные Google. Если в каком-то посте цитируется цена 3.5 Pro или цифра контекста в 2 млн токенов как факт, относитесь к этому как к догадке с уверенным видом.

Как обычно работает поэтапный выпуск у Google (Ultra → Pro → бесплатный)

Исходя из того, как развёртывалась линейка 3.x, вот моё прочтение — оговорюсь: это паттерн, а не обещание. Google, как правило, сначала запускает более высокие уровни и платные поверхности, затем расширяет доступ вниз в течение нескольких недель. Так что Pro скорее всего сначала появится в платных уровнях приложения Gemini и в платном API Vertex/AI Studio, прежде чем добраться до какой-либо бесплатной квоты — если вообще доберётся. Будет ли бесплатный уровень включать Pro — сейчас действительно неизвестно. Я бы не строил бесплатный продукт на Pro на основе «а вдруг».

Как разработчикам маршрутизировать 3.5 Flash против 3.5 Pro

Нельзя маршрутизировать на модель, которой ещё нет. Так что речь идёт о том, что запускать на Flash сейчас и что придержать для Pro.

Когда Flash достаточно (агентная работа, чувствительная к задержкам)

Для большинства агентных и кодировочных задач Flash достаточно — в этом весь смысл инверсии уровней. Если ваша нагрузка — это многошаговое использование инструментов, циклы написания кода, ассистенты с большим объёмом документов или конвейеры с поиском, и вам важна задержка, 3.5 Flash справится. 4-кратная скорость вывода проявляется сильнее всего при запуске длинных агентных циклов, а не одиночных вызовов. Один меньший медленный шаг на цикл звучит незначительно. При масштабировании это быстро складывается.

Когда Pro стоит подождать (глубокое рассуждение, длинный контекст)

Придержите для Pro, когда задача действительно ограничена рассуждением и терпима к задержкам: глубокие аналитические цепочки, очень длинный контекст, где качество воспроизведения важнее скорости, задачи, где неправильный ответ обходится дороже медленного. Хочу быть осторожным здесь — я описываю предполагаемую роль уровня Pro, потому что не могу оценить модель, которую не запускал. Если Flash уже проходит ваш порог точности в тестировании, ожидание Pro принесёт вам только более высокий счёт.

Паттерны фолбэка между уровнями

Паттерн, который я бы строил сегодня: по умолчанию Flash, более дешёвый маршрут (Flash-Lite или 2.5 Flash) для задач извлечения и маршрутизации, и слот конфигурации для Pro, который можно переключить, когда он выйдет и после того, как вы его оцените. Не захардкоживайте одну модель. Релиз 3.5 только что показал, что иерархия может перевернуться за квартал — ваш уровень маршрутизации должен относиться к выбору модели как к переменной, а не к константе.

Место Gemini 3.5 в стеке мультимодальной генерации

Если вы строите что-либо, затрагивающее вывод изображений или видео, этот раздел убережёт вас от неправильной архитектуры.

Разделение слоя принятия решений и слоя исполнения

3.5 Flash — это слой принятия решений, а не слой исполнения для медиа. Он рассуждает, планирует, вызывает инструменты, разбирает входные данные разных модальностей и решает, что должно произойти. Он не рендерит пиксели или кадры. Держите эти две задачи отдельными в вашей архитектуре: пусть Gemini 3.5 занимается маршрутизацией, промптингом и оценкой качества; пусть специализированная модель генерации занимается производством. Их слияние — это путь к тому, чтобы попросить текстовую модель сделать видео и удивляться, почему она не может.

Связка Gemini 3.5 с моделями генерации изображений / видео

Чистый паттерн: Gemini 3.5 принимает бриф, референсное изображение, аудиодорожку — какой угодно входной микс — рассуждает о том, что нужно сгенерировать, и выдаёт структурированные инструкции или промпты. Модель генерации downstream берёт их и производит ресурс.

FAQ

Когда выйдет Gemini 3.5 Pro?

Июнь 2026 года, по анонсу Google на I/O. Точная дата пока не опубликована. Модель остаётся на внутреннем тестировании.

Какой API-идентификатор у Gemini 3.5 Flash?

gemini-3.5-flash. Это стабильный, продакшн GA-идентификатор (работает с 19 мая 2026 года).

Генерирует ли Gemini 3.5 Pro изображения или видео?

Маловероятно. Всё семейство 3.5 поддерживает мультимодальный ввод (текст, изображения, аудио, видео), но выводит только текст. Генерация изображений/видео/аудио относится к отдельным моделям, таким как Gemini Omni.

Gemini 3.5 Flash дешевле 3.1 Pro?

Да, по стоимости на токен ($1,50/$9,00 против предыдущего уровня Pro), и он быстрее. Однако при миграции со старых моделей Flash-Lite стоимость вывода значительно возрастает (~6x).

Можно ли получить доступ к Gemini 3.5 через платформы агрегации моделей?

Да, для Flash (уже доступен на таких платформах, как OpenRouter, по стандартным ценам). Pro ещё не вышел, поэтому поддержка агрегации будет зависеть от расписания выкатки конкретной платформы.

Предыдущие посты：