Gemini 3.5 Flash вышел — модель уровня Flash теперь лидирует среди Pro-моделей в агентных бенчмарках

Gemini 3.5 Flash стал общедоступным на I/O 2026 с включённым по умолчанию режимом мышления, ценой $1,50/$9 за 1 млн токенов и профилем бенчмарков, превосходящим Claude Opus 4.7 и GPT-5.5 в MCP Atlas и большинстве агентных наборов тестов. Где Flash лидирует, где уступает и как развернуть.

By WaveSpeedAI 8 min read

Google выпустил Gemini 3.5 Flash в общий доступ 19 мая 2026 года, в тот же день, когда анонсировал его на I/O — через Gemini API, AI Studio, Antigravity, Vertex AI, приложение Gemini и режим AI Mode в поиске. Идентификатор модели — gemini-3.5-flash (без суффикса preview), снимок за май 2026 года — 3.5-flash-05-2026, стоимость — $1,50 за входные / $9,00 за выходные данные на 1M токенов и $0,15/1M для кешированных входных данных.

Главный показатель — бенчмарки: модель уровня Flash теперь превосходит фронтирные модели уровня Pro на большинстве агентских наборов. Claude Opus 4.7 и GPT-5.5 — оба класса Pro, оба значительно дороже — уступают Flash на MCP Atlas, Toolathlon и Finance Agent v2. В области программирования картина неоднозначная, и есть чёткая категория, где Flash по-прежнему проигрывает. Ниже — полная картина, честный анализ компромиссов и рекомендации по развёртыванию.

Что вышло — в одной таблице

ПараметрЗначение
ID моделиgemini-3.5-flash
Снимок3.5-flash-05-2026
Цена входных данных$1,50/1M токенов
Цена выходных данных$9,00/1M токенов
Кешированные входные данные$0,15/1M токенов
Входные модальностиТекст + изображение + аудио + видео
Выходные модальностиТекст
Контекстное окно1 048 576 входных / 65 536 выходных
МышлениеДинамическое мышление включено по умолчанию
Использование инструментовВызов функций, структурированный вывод, поиск как инструмент, выполнение кода
ДоступностьGemini API, AI Studio, Antigravity, Vertex AI, приложение Gemini, AI Mode в поиске
Заявленная скорость~4× выходных токенов/сек по сравнению с аналогами фронтирного уровня

Деталь «мышление включено по умолчанию» важнее, чем кажется из спецификации. Это не параметр thinking_budget, задаваемый для каждого запроса — Flash имеет динамическое рассуждение, встроенное изначально. Модель сама решает, сколько думать, исходя из промпта. Для продакшн-кода, учитывающего бюджеты задержки, это иная форма развёртывания, чем переключатель extended-thinking у Sonnet 4.6 или параметр reasoning у GPT-5.5.

Агентские бенчмарки: Flash против уровня Pro

Кросс-вендорные данные делают позиционирование Flash понятным. Данные взяты из сравнений при запуске в разборе агентного программирования от Digital Applied и анализе запуска от LLM Stats:

БенчмаркGemini 3.5 FlashClaude Opus 4.7GPT-5.5Победитель
MCP Atlas83,6%79,1%75,3%Flash (+4,5 / +8,3)
Toolathlon56,5%Flash
Finance Agent v257,9%Flash
CharXiv Reasoning84,2%Flash
MMMU-Pro83,6%Flash
SWE-Bench Pro64,3%Opus 4.7
Terminal-Bench 2.176,2%78,2%GPT-5.5 (+2,0)
OSWorld-Verified78,7%GPT-5.5
Blueprint-Bench 236,2%GPT-5.5
GDPval-AA1656 Elo1769 EloGPT-5.5 (+113)
ARC-AGI-272,1%84,6%GPT-5.5 (+12,5)

Три вывода:

В агентной оркестрации Flash теперь — первый выбор по умолчанию. MCP Atlas измеряет многошаговые рабочие процессы с инструментами — именно те сценарии использования, которые реально развёртывают большинство корпоративных агентных стеков. Превзойти Opus на 4,5 пункта по этому бенчмарку по ценам Flash — это значимый сдвиг в соотношении возможности/стоимость. Toolathlon и Finance Agent v2 подтверждают паттерн: везде, где задача агентная (план, вызов инструментов, интеграция результатов, итерация), Flash лидирует.

В программировании в стиле терминала GPT-5.5 всё ещё выигрывает с небольшим отрывом. Разрыв в 2 пункта на Terminal-Bench 2.1 не является решающим — но вместе с преимуществом GPT-5.5 на GDPval-AA (113 Elo) и OSWorld-Verified вывод таков: если ваш рабочий процесс — «дать модели терминал и задачу», GPT-5.5 по-прежнему правильный выбор. Flash сокращает разрыв, но не устраняет его.

В сложном абстрактном рассуждении у Flash есть реальная слабость. ARC-AGI-2 — наиболее чёткий сигнал здесь: Flash отстаёт от GPT-5.5 на 12,5 пункта. Это согласуется с тем, что мы отметили вчера о регрессии Flash на Humanity’s Last Exam и при извлечении информации из длинного контекста по сравнению с предыдущим Gemini 3.1 Pro. Архитектура Flash явно пожертвовала глубиной рассуждений ради скорости и стоимости. Gemini 3.5 Pro, который выйдет в июне, предположительно, является ответом на этот компромисс.

Ценообразование в контексте

МодельВходные ($/1M)Выходные ($/1M)Коэффициент выходныхПримечания
Gemini 3.5 Flash$1,50$9,006,0×Кешированные входные $0,15
Claude Sonnet 4.6$3,00$15,005,0×Плоский 1M контекст
Claude Opus 4.7$5,00$25,005,0×Рассуждение Pro-уровня
GPT-5.5$1,25$10,008,0×Самые дешёвые входные
Gemini 3.1 Pro (предыдущий)$2,50$15,006,0×На 40% дороже Flash

Flash находится ниже Sonnet 4.6 по обоим показателям, при этом опережая Opus 4.7 на агентских бенчмарках. Вот ценовая история, которую разработчикам нужно усвоить: стандарт для агентной оркестрации только что подешевел на 50% по входным данным и на 40% по выходным, при этом с заметно лучшим профилем бенчмарков, чем предыдущий стандарт на том же уровне.

Цена кешированных входных данных $0,15/1M склоняет математику в пользу любого рабочего процесса с интенсивным использованием RAG или памяти. Если вы подаёте 500K токенов кешированного контекста на каждый запрос, цена Flash на кешированном уровне составляет примерно 10% от стандартной входной ставки Sonnet 4.6. Это не доли процента маржи — это другой ценовой класс.

Где Flash вписывается в продакшн сегодня

Конкретные рекомендации по развёртыванию на основе данных бенчмарков:

Использовать Flash для:

  • MCP / агентов с оркестрацией инструментов. Здесь Flash genuinely лидирует, и ценовое преимущество наибольшее.
  • Высокообъёмных API-рабочих процессов, где удельная стоимость важнее пиковой интеллектуальности: трансформация данных, классификация, структурированное извлечение, пакетная обработка.
  • Мультимодальных пайплайнов, принимающих входные данные в виде изображений/аудио/видео и выводящих текст — Flash нативно поддерживает все четыре входные модальности.
  • Рабочих процессов с интенсивным кешированием (RAG с длинным контекстом, память разговора, поиск по документам) — $0,15/1M кешированных входных данных — самая низкая цена во фронтирном уровне.

Не использовать Flash для (пока):

  • Сложного абстрактного рассуждения — задачи в стиле ARC-AGI-2. Здесь выбор — GPT-5.5.
  • Извлечения информации из длинного контекста при 128K+ — Flash регрессировал по сравнению с предыдущим Gemini 3.1 Pro здесь. Подождите 3.5 Pro в июне.
  • Чистых агентов программирования в терминале — GPT-5.5 по-прежнему имеет преимущество в 2 пункта на Terminal-Bench, что накапливается в многошаговых рабочих процессах программирования.
  • Рабочих нагрузок, где нужно контролировать бюджет мышления на запрос — у Flash мышление встроено, не доступно как параметр.

Что изменилось сегодня, чего не было вчера

Три вещи действительно сдвинулись с выходом Flash:

  1. Стандартная агентная модель больше не является Pro-уровнем. «Используй лучшую модель, которую можешь себе позволить» перестаёт быть хорошим советом для агентных рабочих процессов. Для задач с MCP-оркестрацией Flash превосходит Pro-модели конкурентов и стоит меньше.
  2. Семейство текстовых моделей Gemini догнало по агентным возможностям. До запуска доминирующий нарратив гласил: «Gemini отстаёт в программировании и агентах». После запуска Flash лидирует на большинстве агентских наборов и конкурентоспособен в программировании. Нарратив нужно обновить.
  3. Разрыв в рассуждениях увеличился, а не уменьшился. Регрессия Flash на ARC-AGI-2 и Humanity’s Last Exam реальна. Выход Pro в июне теперь является ключевым событием для того, закроет ли Gemini этот конкретный разрыв.

Пути развёртывания

Наиболее чёткая форма развёртывания сегодня зависит от того, какую платформу вы используете:

  • Продакшн API напрямую через Google: gemini-3.5-flash через Vertex AI или AI Studio. Оба предоставляют одну и ту же модель.
  • В Antigravity (поверхность программирования Google в стиле IDE): замена стандартной модели с gemini-3.1-pro на gemini-3.5-flash — правильный шаг для большинства рабочих процессов.
  • В мультивендорном роутере: добавьте gemini-3.5-flash в вашу политику агентной оркестрации. Для путей с MCP / интенсивным использованием инструментов направляйте сначала на Flash; переключайтесь на GPT-5.5 для программирования в терминале и рассуждений в стиле ARC.
  • На WaveSpeedAI: LLM-эндпоинт WaveSpeedAI предоставляет OpenAI-совместимый доступ к актуальным фронтирным текстовым моделям через один API-ключ. По мере интеграции Gemini 3.5 Flash вы сможете A/B-тестировать его против остального набора моделей под той же платформой.

На что обратить внимание в июне

Два события, которые разрешатся в ближайшие четыре недели:

  1. Запуск Gemini 3.5 Pro. Это ответ на вопрос, будет ли исправлена регрессия Flash в рассуждениях и длинном контексте. Если Pro окажется выше 3.1 Pro на Humanity’s Last Exam и сравняется с Flash на Terminal-Bench, всё семейство Gemini 3.5 станет новым стандартом. Если Pro просто устранит регрессию при более высокой стоимости, линейка останется разделённой.
  2. Независимые репликации агентских бенчмарков. Числа Google по MCP Atlas / Toolathlon / Finance Agent — первичные данные от самой компании. Интересный вопрос — воспроизведут ли сторонние агентские бенчмарк-наборы (LangChain Bench, MetaGPT eval и др.) это лидерство. Следите за репликационными исследованиями в ближайшие две-три недели.

До тех пор: Flash уже работает, стоимость агентной оркестрации снизилась, и главный вопрос, стоящий перед большинством разработчиков на этой неделе: мигрировать ли агентный путь с Opus 4.7 на gemini-3.5-flash сегодня или подождать 3.5 Pro.

Поделиться