Gemini 3.5 Flash вышел — модель уровня Flash теперь лидирует среди Pro-моделей в агентных бенчмарках

Google выпустил Gemini 3.5 Flash в общий доступ 19 мая 2026 года, в тот же день, когда анонсировал его на I/O — через Gemini API, AI Studio, Antigravity, Vertex AI, приложение Gemini и режим AI Mode в поиске. Идентификатор модели — gemini-3.5-flash (без суффикса preview), снимок за май 2026 года — 3.5-flash-05-2026, стоимость — $1,50 за входные / $9,00 за выходные данные на 1M токенов и $0,15/1M для кешированных входных данных.

Главный показатель — бенчмарки: модель уровня Flash теперь превосходит фронтирные модели уровня Pro на большинстве агентских наборов. Claude Opus 4.7 и GPT-5.5 — оба класса Pro, оба значительно дороже — уступают Flash на MCP Atlas, Toolathlon и Finance Agent v2. В области программирования картина неоднозначная, и есть чёткая категория, где Flash по-прежнему проигрывает. Ниже — полная картина, честный анализ компромиссов и рекомендации по развёртыванию.

Что вышло — в одной таблице

Параметр	Значение
ID модели	`gemini-3.5-flash`
Снимок	`3.5-flash-05-2026`
Цена входных данных	$1,50/1M токенов
Цена выходных данных	$9,00/1M токенов
Кешированные входные данные	$0,15/1M токенов
Входные модальности	Текст + изображение + аудио + видео
Выходные модальности	Текст
Контекстное окно	1 048 576 входных / 65 536 выходных
Мышление	Динамическое мышление включено по умолчанию
Использование инструментов	Вызов функций, структурированный вывод, поиск как инструмент, выполнение кода
Доступность	Gemini API, AI Studio, Antigravity, Vertex AI, приложение Gemini, AI Mode в поиске
Заявленная скорость	~4× выходных токенов/сек по сравнению с аналогами фронтирного уровня

Деталь «мышление включено по умолчанию» важнее, чем кажется из спецификации. Это не параметр thinking_budget, задаваемый для каждого запроса — Flash имеет динамическое рассуждение, встроенное изначально. Модель сама решает, сколько думать, исходя из промпта. Для продакшн-кода, учитывающего бюджеты задержки, это иная форма развёртывания, чем переключатель extended-thinking у Sonnet 4.6 или параметр reasoning у GPT-5.5.

Агентские бенчмарки: Flash против уровня Pro

Кросс-вендорные данные делают позиционирование Flash понятным. Данные взяты из сравнений при запуске в разборе агентного программирования от Digital Applied и анализе запуска от LLM Stats:

Бенчмарк	Gemini 3.5 Flash	Claude Opus 4.7	GPT-5.5	Победитель
MCP Atlas	83,6%	79,1%	75,3%	Flash (+4,5 / +8,3)
Toolathlon	56,5%	—	—	Flash
Finance Agent v2	57,9%	—	—	Flash
CharXiv Reasoning	84,2%	—	—	Flash
MMMU-Pro	83,6%	—	—	Flash
SWE-Bench Pro	—	64,3%	—	Opus 4.7
Terminal-Bench 2.1	76,2%	—	78,2%	GPT-5.5 (+2,0)
OSWorld-Verified	—	—	78,7%	GPT-5.5
Blueprint-Bench 2	—	—	36,2%	GPT-5.5
GDPval-AA	1656 Elo	—	1769 Elo	GPT-5.5 (+113)
ARC-AGI-2	72,1%	—	84,6%	GPT-5.5 (+12,5)

Три вывода:

В агентной оркестрации Flash теперь — первый выбор по умолчанию. MCP Atlas измеряет многошаговые рабочие процессы с инструментами — именно те сценарии использования, которые реально развёртывают большинство корпоративных агентных стеков. Превзойти Opus на 4,5 пункта по этому бенчмарку по ценам Flash — это значимый сдвиг в соотношении возможности/стоимость. Toolathlon и Finance Agent v2 подтверждают паттерн: везде, где задача агентная (план, вызов инструментов, интеграция результатов, итерация), Flash лидирует.

В программировании в стиле терминала GPT-5.5 всё ещё выигрывает с небольшим отрывом. Разрыв в 2 пункта на Terminal-Bench 2.1 не является решающим — но вместе с преимуществом GPT-5.5 на GDPval-AA (113 Elo) и OSWorld-Verified вывод таков: если ваш рабочий процесс — «дать модели терминал и задачу», GPT-5.5 по-прежнему правильный выбор. Flash сокращает разрыв, но не устраняет его.

В сложном абстрактном рассуждении у Flash есть реальная слабость. ARC-AGI-2 — наиболее чёткий сигнал здесь: Flash отстаёт от GPT-5.5 на 12,5 пункта. Это согласуется с тем, что мы отметили вчера о регрессии Flash на Humanity’s Last Exam и при извлечении информации из длинного контекста по сравнению с предыдущим Gemini 3.1 Pro. Архитектура Flash явно пожертвовала глубиной рассуждений ради скорости и стоимости. Gemini 3.5 Pro, который выйдет в июне, предположительно, является ответом на этот компромисс.

Ценообразование в контексте

Модель	Входные ($/1M)	Выходные ($/1M)	Коэффициент выходных	Примечания
Gemini 3.5 Flash	$1,50	$9,00	6,0×	Кешированные входные $0,15
Claude Sonnet 4.6	$3,00	$15,00	5,0×	Плоский 1M контекст
Claude Opus 4.7	$5,00	$25,00	5,0×	Рассуждение Pro-уровня
GPT-5.5	$1,25	$10,00	8,0×	Самые дешёвые входные
Gemini 3.1 Pro (предыдущий)	$2,50	$15,00	6,0×	На 40% дороже Flash

Flash находится ниже Sonnet 4.6 по обоим показателям, при этом опережая Opus 4.7 на агентских бенчмарках. Вот ценовая история, которую разработчикам нужно усвоить: стандарт для агентной оркестрации только что подешевел на 50% по входным данным и на 40% по выходным, при этом с заметно лучшим профилем бенчмарков, чем предыдущий стандарт на том же уровне.

Цена кешированных входных данных $0,15/1M склоняет математику в пользу любого рабочего процесса с интенсивным использованием RAG или памяти. Если вы подаёте 500K токенов кешированного контекста на каждый запрос, цена Flash на кешированном уровне составляет примерно 10% от стандартной входной ставки Sonnet 4.6. Это не доли процента маржи — это другой ценовой класс.

Где Flash вписывается в продакшн сегодня

Конкретные рекомендации по развёртыванию на основе данных бенчмарков:

Использовать Flash для:

MCP / агентов с оркестрацией инструментов. Здесь Flash genuinely лидирует, и ценовое преимущество наибольшее.
Высокообъёмных API-рабочих процессов, где удельная стоимость важнее пиковой интеллектуальности: трансформация данных, классификация, структурированное извлечение, пакетная обработка.
Мультимодальных пайплайнов, принимающих входные данные в виде изображений/аудио/видео и выводящих текст — Flash нативно поддерживает все четыре входные модальности.
Рабочих процессов с интенсивным кешированием (RAG с длинным контекстом, память разговора, поиск по документам) — $0,15/1M кешированных входных данных — самая низкая цена во фронтирном уровне.

Не использовать Flash для (пока):

Сложного абстрактного рассуждения — задачи в стиле ARC-AGI-2. Здесь выбор — GPT-5.5.
Извлечения информации из длинного контекста при 128K+ — Flash регрессировал по сравнению с предыдущим Gemini 3.1 Pro здесь. Подождите 3.5 Pro в июне.
Чистых агентов программирования в терминале — GPT-5.5 по-прежнему имеет преимущество в 2 пункта на Terminal-Bench, что накапливается в многошаговых рабочих процессах программирования.
Рабочих нагрузок, где нужно контролировать бюджет мышления на запрос — у Flash мышление встроено, не доступно как параметр.

Что изменилось сегодня, чего не было вчера

Три вещи действительно сдвинулись с выходом Flash:

Стандартная агентная модель больше не является Pro-уровнем. «Используй лучшую модель, которую можешь себе позволить» перестаёт быть хорошим советом для агентных рабочих процессов. Для задач с MCP-оркестрацией Flash превосходит Pro-модели конкурентов и стоит меньше.
Семейство текстовых моделей Gemini догнало по агентным возможностям. До запуска доминирующий нарратив гласил: «Gemini отстаёт в программировании и агентах». После запуска Flash лидирует на большинстве агентских наборов и конкурентоспособен в программировании. Нарратив нужно обновить.
Разрыв в рассуждениях увеличился, а не уменьшился. Регрессия Flash на ARC-AGI-2 и Humanity’s Last Exam реальна. Выход Pro в июне теперь является ключевым событием для того, закроет ли Gemini этот конкретный разрыв.

Пути развёртывания

Наиболее чёткая форма развёртывания сегодня зависит от того, какую платформу вы используете:

Продакшн API напрямую через Google: gemini-3.5-flash через Vertex AI или AI Studio. Оба предоставляют одну и ту же модель.
В Antigravity (поверхность программирования Google в стиле IDE): замена стандартной модели с gemini-3.1-pro на gemini-3.5-flash — правильный шаг для большинства рабочих процессов.
В мультивендорном роутере: добавьте gemini-3.5-flash в вашу политику агентной оркестрации. Для путей с MCP / интенсивным использованием инструментов направляйте сначала на Flash; переключайтесь на GPT-5.5 для программирования в терминале и рассуждений в стиле ARC.
На WaveSpeedAI: LLM-эндпоинт WaveSpeedAI предоставляет OpenAI-совместимый доступ к актуальным фронтирным текстовым моделям через один API-ключ. По мере интеграции Gemini 3.5 Flash вы сможете A/B-тестировать его против остального набора моделей под той же платформой.

На что обратить внимание в июне

Два события, которые разрешатся в ближайшие четыре недели:

Запуск Gemini 3.5 Pro. Это ответ на вопрос, будет ли исправлена регрессия Flash в рассуждениях и длинном контексте. Если Pro окажется выше 3.1 Pro на Humanity’s Last Exam и сравняется с Flash на Terminal-Bench, всё семейство Gemini 3.5 станет новым стандартом. Если Pro просто устранит регрессию при более высокой стоимости, линейка останется разделённой.
Независимые репликации агентских бенчмарков. Числа Google по MCP Atlas / Toolathlon / Finance Agent — первичные данные от самой компании. Интересный вопрос — воспроизведут ли сторонние агентские бенчмарк-наборы (LangChain Bench, MetaGPT eval и др.) это лидерство. Следите за репликационными исследованиями в ближайшие две-три недели.

До тех пор: Flash уже работает, стоимость агентной оркестрации снизилась, и главный вопрос, стоящий перед большинством разработчиков на этой неделе: мигрировать ли агентный путь с Opus 4.7 на gemini-3.5-flash сегодня или подождать 3.5 Pro.

Что вышло — в одной таблице

Агентские бенчмарки: Flash против уровня Pro

Ценообразование в контексте

Где Flash вписывается в продакшн сегодня

Использовать Flash для:

Не использовать Flash для (пока):

Что изменилось сегодня, чего не было вчера

Пути развёртывания

На что обратить внимание в июне

Похожие статьи

Claude Fable 5 выпущен: 80.3% на SWE-Bench Pro, цена в 2× от Opus 4.8, бесплатно до 22 июня

Gemini 3.5 Pro выходит в следующем месяце — что уже говорит нам релиз Flash

Gemini Omni Flash выпущен: мультимодальное видео за 10 секунд, водяные знаки SynthID, редактирование аудио отложено

Gemini 4.0 на Google I/O 2026: что подтверждено, что основано на анонимных источниках и за чем разработчикам действительно стоит следить

Демо Gemini Omni утекли в сеть — вот что на самом деле умеет новая видеомодель Google

Таинственная видеомодель Google «Omni»: что утечка интерфейса Gemini говорит нам накануне I/O 2026