Gemini 3.5 Flash вышел — модель уровня Flash теперь лидирует среди Pro-моделей в агентных бенчмарках
Gemini 3.5 Flash стал общедоступным на I/O 2026 с включённым по умолчанию режимом мышления, ценой $1,50/$9 за 1 млн токенов и профилем бенчмарков, превосходящим Claude Opus 4.7 и GPT-5.5 в MCP Atlas и большинстве агентных наборов тестов. Где Flash лидирует, где уступает и как развернуть.
Google выпустил Gemini 3.5 Flash в общий доступ 19 мая 2026 года, в тот же день, когда анонсировал его на I/O — через Gemini API, AI Studio, Antigravity, Vertex AI, приложение Gemini и режим AI Mode в поиске. Идентификатор модели — gemini-3.5-flash (без суффикса preview), снимок за май 2026 года — 3.5-flash-05-2026, стоимость — $1,50 за входные / $9,00 за выходные данные на 1M токенов и $0,15/1M для кешированных входных данных.
Главный показатель — бенчмарки: модель уровня Flash теперь превосходит фронтирные модели уровня Pro на большинстве агентских наборов. Claude Opus 4.7 и GPT-5.5 — оба класса Pro, оба значительно дороже — уступают Flash на MCP Atlas, Toolathlon и Finance Agent v2. В области программирования картина неоднозначная, и есть чёткая категория, где Flash по-прежнему проигрывает. Ниже — полная картина, честный анализ компромиссов и рекомендации по развёртыванию.
Что вышло — в одной таблице
| Параметр | Значение |
|---|---|
| ID модели | gemini-3.5-flash |
| Снимок | 3.5-flash-05-2026 |
| Цена входных данных | $1,50/1M токенов |
| Цена выходных данных | $9,00/1M токенов |
| Кешированные входные данные | $0,15/1M токенов |
| Входные модальности | Текст + изображение + аудио + видео |
| Выходные модальности | Текст |
| Контекстное окно | 1 048 576 входных / 65 536 выходных |
| Мышление | Динамическое мышление включено по умолчанию |
| Использование инструментов | Вызов функций, структурированный вывод, поиск как инструмент, выполнение кода |
| Доступность | Gemini API, AI Studio, Antigravity, Vertex AI, приложение Gemini, AI Mode в поиске |
| Заявленная скорость | ~4× выходных токенов/сек по сравнению с аналогами фронтирного уровня |
Деталь «мышление включено по умолчанию» важнее, чем кажется из спецификации. Это не параметр thinking_budget, задаваемый для каждого запроса — Flash имеет динамическое рассуждение, встроенное изначально. Модель сама решает, сколько думать, исходя из промпта. Для продакшн-кода, учитывающего бюджеты задержки, это иная форма развёртывания, чем переключатель extended-thinking у Sonnet 4.6 или параметр reasoning у GPT-5.5.
Агентские бенчмарки: Flash против уровня Pro
Кросс-вендорные данные делают позиционирование Flash понятным. Данные взяты из сравнений при запуске в разборе агентного программирования от Digital Applied и анализе запуска от LLM Stats:
| Бенчмарк | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | Победитель |
|---|---|---|---|---|
| MCP Atlas | 83,6% | 79,1% | 75,3% | Flash (+4,5 / +8,3) |
| Toolathlon | 56,5% | — | — | Flash |
| Finance Agent v2 | 57,9% | — | — | Flash |
| CharXiv Reasoning | 84,2% | — | — | Flash |
| MMMU-Pro | 83,6% | — | — | Flash |
| SWE-Bench Pro | — | 64,3% | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76,2% | — | 78,2% | GPT-5.5 (+2,0) |
| OSWorld-Verified | — | — | 78,7% | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36,2% | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72,1% | — | 84,6% | GPT-5.5 (+12,5) |
Три вывода:
В агентной оркестрации Flash теперь — первый выбор по умолчанию. MCP Atlas измеряет многошаговые рабочие процессы с инструментами — именно те сценарии использования, которые реально развёртывают большинство корпоративных агентных стеков. Превзойти Opus на 4,5 пункта по этому бенчмарку по ценам Flash — это значимый сдвиг в соотношении возможности/стоимость. Toolathlon и Finance Agent v2 подтверждают паттерн: везде, где задача агентная (план, вызов инструментов, интеграция результатов, итерация), Flash лидирует.
В программировании в стиле терминала GPT-5.5 всё ещё выигрывает с небольшим отрывом. Разрыв в 2 пункта на Terminal-Bench 2.1 не является решающим — но вместе с преимуществом GPT-5.5 на GDPval-AA (113 Elo) и OSWorld-Verified вывод таков: если ваш рабочий процесс — «дать модели терминал и задачу», GPT-5.5 по-прежнему правильный выбор. Flash сокращает разрыв, но не устраняет его.
В сложном абстрактном рассуждении у Flash есть реальная слабость. ARC-AGI-2 — наиболее чёткий сигнал здесь: Flash отстаёт от GPT-5.5 на 12,5 пункта. Это согласуется с тем, что мы отметили вчера о регрессии Flash на Humanity’s Last Exam и при извлечении информации из длинного контекста по сравнению с предыдущим Gemini 3.1 Pro. Архитектура Flash явно пожертвовала глубиной рассуждений ради скорости и стоимости. Gemini 3.5 Pro, который выйдет в июне, предположительно, является ответом на этот компромисс.
Ценообразование в контексте
| Модель | Входные ($/1M) | Выходные ($/1M) | Коэффициент выходных | Примечания |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1,50 | $9,00 | 6,0× | Кешированные входные $0,15 |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 5,0× | Плоский 1M контекст |
| Claude Opus 4.7 | $5,00 | $25,00 | 5,0× | Рассуждение Pro-уровня |
| GPT-5.5 | $1,25 | $10,00 | 8,0× | Самые дешёвые входные |
| Gemini 3.1 Pro (предыдущий) | $2,50 | $15,00 | 6,0× | На 40% дороже Flash |
Flash находится ниже Sonnet 4.6 по обоим показателям, при этом опережая Opus 4.7 на агентских бенчмарках. Вот ценовая история, которую разработчикам нужно усвоить: стандарт для агентной оркестрации только что подешевел на 50% по входным данным и на 40% по выходным, при этом с заметно лучшим профилем бенчмарков, чем предыдущий стандарт на том же уровне.
Цена кешированных входных данных $0,15/1M склоняет математику в пользу любого рабочего процесса с интенсивным использованием RAG или памяти. Если вы подаёте 500K токенов кешированного контекста на каждый запрос, цена Flash на кешированном уровне составляет примерно 10% от стандартной входной ставки Sonnet 4.6. Это не доли процента маржи — это другой ценовой класс.
Где Flash вписывается в продакшн сегодня
Конкретные рекомендации по развёртыванию на основе данных бенчмарков:
Использовать Flash для:
- MCP / агентов с оркестрацией инструментов. Здесь Flash genuinely лидирует, и ценовое преимущество наибольшее.
- Высокообъёмных API-рабочих процессов, где удельная стоимость важнее пиковой интеллектуальности: трансформация данных, классификация, структурированное извлечение, пакетная обработка.
- Мультимодальных пайплайнов, принимающих входные данные в виде изображений/аудио/видео и выводящих текст — Flash нативно поддерживает все четыре входные модальности.
- Рабочих процессов с интенсивным кешированием (RAG с длинным контекстом, память разговора, поиск по документам) — $0,15/1M кешированных входных данных — самая низкая цена во фронтирном уровне.
Не использовать Flash для (пока):
- Сложного абстрактного рассуждения — задачи в стиле ARC-AGI-2. Здесь выбор — GPT-5.5.
- Извлечения информации из длинного контекста при 128K+ — Flash регрессировал по сравнению с предыдущим Gemini 3.1 Pro здесь. Подождите 3.5 Pro в июне.
- Чистых агентов программирования в терминале — GPT-5.5 по-прежнему имеет преимущество в 2 пункта на Terminal-Bench, что накапливается в многошаговых рабочих процессах программирования.
- Рабочих нагрузок, где нужно контролировать бюджет мышления на запрос — у Flash мышление встроено, не доступно как параметр.
Что изменилось сегодня, чего не было вчера
Три вещи действительно сдвинулись с выходом Flash:
- Стандартная агентная модель больше не является Pro-уровнем. «Используй лучшую модель, которую можешь себе позволить» перестаёт быть хорошим советом для агентных рабочих процессов. Для задач с MCP-оркестрацией Flash превосходит Pro-модели конкурентов и стоит меньше.
- Семейство текстовых моделей Gemini догнало по агентным возможностям. До запуска доминирующий нарратив гласил: «Gemini отстаёт в программировании и агентах». После запуска Flash лидирует на большинстве агентских наборов и конкурентоспособен в программировании. Нарратив нужно обновить.
- Разрыв в рассуждениях увеличился, а не уменьшился. Регрессия Flash на ARC-AGI-2 и Humanity’s Last Exam реальна. Выход Pro в июне теперь является ключевым событием для того, закроет ли Gemini этот конкретный разрыв.
Пути развёртывания
Наиболее чёткая форма развёртывания сегодня зависит от того, какую платформу вы используете:
- Продакшн API напрямую через Google:
gemini-3.5-flashчерез Vertex AI или AI Studio. Оба предоставляют одну и ту же модель. - В Antigravity (поверхность программирования Google в стиле IDE): замена стандартной модели с
gemini-3.1-proнаgemini-3.5-flash— правильный шаг для большинства рабочих процессов. - В мультивендорном роутере: добавьте
gemini-3.5-flashв вашу политику агентной оркестрации. Для путей с MCP / интенсивным использованием инструментов направляйте сначала на Flash; переключайтесь на GPT-5.5 для программирования в терминале и рассуждений в стиле ARC. - На WaveSpeedAI: LLM-эндпоинт WaveSpeedAI предоставляет OpenAI-совместимый доступ к актуальным фронтирным текстовым моделям через один API-ключ. По мере интеграции Gemini 3.5 Flash вы сможете A/B-тестировать его против остального набора моделей под той же платформой.
На что обратить внимание в июне
Два события, которые разрешатся в ближайшие четыре недели:
- Запуск Gemini 3.5 Pro. Это ответ на вопрос, будет ли исправлена регрессия Flash в рассуждениях и длинном контексте. Если Pro окажется выше 3.1 Pro на Humanity’s Last Exam и сравняется с Flash на Terminal-Bench, всё семейство Gemini 3.5 станет новым стандартом. Если Pro просто устранит регрессию при более высокой стоимости, линейка останется разделённой.
- Независимые репликации агентских бенчмарков. Числа Google по MCP Atlas / Toolathlon / Finance Agent — первичные данные от самой компании. Интересный вопрос — воспроизведут ли сторонние агентские бенчмарк-наборы (LangChain Bench, MetaGPT eval и др.) это лидерство. Следите за репликационными исследованиями в ближайшие две-три недели.
До тех пор: Flash уже работает, стоимость агентной оркестрации снизилась, и главный вопрос, стоящий перед большинством разработчиков на этой неделе: мигрировать ли агентный путь с Opus 4.7 на gemini-3.5-flash сегодня или подождать 3.5 Pro.
