Gemini 3.5 Flash 正式リリース — フラッシュティアモデルがエージェントベンチマークでProティアを上回る

Googleは2026年5月19日、Gemini 3.5 FlashをI/Oでの発表と同日に一般提供開始した。Gemini API、AI Studio、Antigravity、Vertex AI、Geminiアプリ、SearchのAI Modeにわたって展開されている。モデルIDはgemini-3.5-flash（プレビューサフィックスなし）、2026年5月スナップショットは3.5-flash-05-2026、価格は入力$1.50 / 出力$9.00（100万トークンあたり）、キャッシュ入力は$0.15/1Mトークンとなっている。

注目すべき数字はベンチマーク面にある：Flashティアのモデルが、ほとんどのエージェントスイートでProティアのフロンティアモデルを上回るようになった。Claude Opus 4.7とGPT-5.5——いずれもProクラスで、いずれも明らかに高価——はMCP Atlas、Toolathlon、Finance Agent v2でFlashに後れを取っている。コーディングはより混在した結果となっており、Flashがまだ負けている明確なカテゴリーも存在する。以下では全体像、トレードオフの率直な評価、そしてデプロイ先について解説する。

リリース内容の一覧

詳細	値
モデルID	`gemini-3.5-flash`
スナップショット	`3.5-flash-05-2026`
入力価格	$1.50/1Mトークン
出力価格	$9.00/1Mトークン
キャッシュ入力	$0.15/1Mトークン
入力モダリティ	テキスト・画像・音声・動画
出力モダリティ	テキスト
コンテキストウィンドウ	入力1,048,576 / 出力65,536
Thinking	動的Thinking デフォルトでオン
ツール使用	関数呼び出し、構造化出力、検索ツール、コード実行
利用可能環境	Gemini API、AI Studio、Antigravity、Vertex AI、Geminiアプリ、SearchのAI Mode
速度の主張	フロンティアモデル比で出力トークン/秒が約4倍

「Thinkingがデフォルトでオン」という点は、スペックシートが示す以上に重要である。これはリクエストごとに設定するthinking_budgetパラメーターではなく——Flashには動的推論が組み込まれている。モデルはプロンプトに基づいてどれだけ考えるかを自分で決定する。レイテンシーバジェットを価格に織り込む本番コードにとって、これはSonnet 4.6の拡張ThinkingトグルやGPT-5.5のreasoningパラメーターとは異なるデプロイ形態となる。

エージェントベンチマーク：Flash対Proティア

ベンダー横断データこそ、Flashのポジショニングが明確になる部分だ。Digital AppliedのAgenticコーディング分析とLLM Statsのローンチ分析のローンチ比較データから引用する：

ベンチマーク	Gemini 3.5 Flash	Claude Opus 4.7	GPT-5.5	勝者
MCP Atlas	83.6%	79.1%	75.3%	Flash (+4.5 / +8.3)
Toolathlon	56.5%	—	—	Flash
Finance Agent v2	57.9%	—	—	Flash
CharXiv Reasoning	84.2%	—	—	Flash
MMMU-Pro	83.6%	—	—	Flash
SWE-Bench Pro	—	64.3%	—	Opus 4.7
Terminal-Bench 2.1	76.2%	—	78.2%	GPT-5.5 (+2.0)
OSWorld-Verified	—	—	78.7%	GPT-5.5
Blueprint-Bench 2	—	—	36.2%	GPT-5.5
GDPval-AA	1656 Elo	—	1769 Elo	GPT-5.5 (+113)
ARC-AGI-2	72.1%	—	84.6%	GPT-5.5 (+12.5)

この結果から三つの読み取りができる：

エージェントオーケストレーションにおいて、Flashは今や最初に選ぶべきデフォルトとなった。 MCP Atlasはマルチステップのツール駆動型ワークフローを測定する——実際にほとんどのエンタープライズエージェントスタックが展開するユースケースだ。Flash価格でこのベンチマークでOpusを4.5ポイント上回ることは、コストパフォーマンス面での意味ある変化である。ToolathlonとFinance Agent v2もパターンを裏付けている：作業がエージェント的（計画、ツール呼び出し、結果統合、反復）なところでは、Flashがリードしている。

ターミナル型コーディングでは、GPT-5.5がわずかに勝る。 Terminal-Bench 2.1での2ポイント差は決定的ではないが——GDPval-AA（113 Elo）とOSWorld-VerifiedでのGPT-5.5のリードと合わせて考えると、「モデルにターミナルとタスクを与える」ワークフローにはGPT-5.5が依然として正しい選択という読み取りができる。Flashはギャップを縮めたが、リードを覆すには至っていない。

難易度の高い抽象的推論において、Flashには明確な弱点がある。 ARC-AGI-2がここで最も明確なシグナルとなっており——FlashはGPT-5.5に12.5ポイント差をつけられている。これは昨日指摘した、Flashが前世代のGemini 3.1 ProとのHumanity’s Last ExamおよびLong-contextリトリーバルで後退した点と一致している。Flashアーキテクチャは明らかに推論の深さをスピードとコストのために犠牲にした。6月に登場するGemini 3.5 Proが、そのトレードオフへの答えとなるはずだ。

価格の文脈

モデル	入力（$/1M）	出力（$/1M）	出力比率	備考
Gemini 3.5 Flash	$1.50	$9.00	6.0×	キャッシュ入力$0.15
Claude Sonnet 4.6	$3.00	$15.00	5.0×	1Mコンテキスト均一
Claude Opus 4.7	$5.00	$25.00	5.0×	Proティア推論
GPT-5.5	$1.25	$10.00	8.0×	最安値の入力
Gemini 3.1 Pro（旧世代）	$2.50	$15.00	6.0×	Flashより40%高価

FlashはSonnet 4.6より入出力ともに安く、エージェントベンチマークではOpus 4.7をリードしている。ビルダーが把握すべき価格の話はここにある：エージェントオーケストレーションのデフォルトは、入力で50%、出力で40%安くなり、同ティアの以前のデフォルトより意味ある優れたベンチマークプロファイルを持つようになった。

$0.15/1Mキャッシュ入力の価格設定は、RAGやメモリーを多用するワークフローにとって計算を大きく有利に傾ける。リクエストごとに500Kトークンのキャッシュコンテキストを投入する場合、FlashのキャッシュティアはSonnet 4.6の標準入力レートの約10%となる。これはわずか数パーセントポイントのマージンではなく、まったく異なるコストクラスだ。

本番環境でのFlashの位置づけ

ベンチマークデータに基づく具体的なデプロイ判断：

Flashを使うべき場面：

MCP / ツールオーケストレーションエージェント。 ここはFlashが真にリードしており、価格面での優位が最大となる。
ユニットコストがピーク性能より重要な高ボリュームAPIワークフロー：データ変換、分類、構造化抽出、バッチ処理。
画像・音声・動画入力をテキスト出力に変換するマルチモーダルパイプライン ——Flashは4つの入力モダリティをネイティブサポートしている。
キャッシュを多用するワークフロー（Long-context RAG、会話メモリー、ドキュメント検索）——$0.15/1Mキャッシュ入力はフロンティアティアで最安値。

Flashを使うべきでない場面（現時点）：

難易度の高い抽象的推論 ——ARC-AGI-2スタイルの問題。GPT-5.5が正しい選択。
128K+でのLong-contextリトリーバル ——Flashは前世代のGemini 3.1 Proより後退している。6月の3.5 Proを待つべき。
純粋なターミナルコーディングエージェント ——GPT-5.5はTerminal-Benchでまだ2ポイントのエッジを持っており、それがマルチステップコーディングワークフローで積み重なる。
リクエストごとにThinkingバジェットを制御する必要があるワークロード ——FlashはThinkingが組み込まれており、パラメーターとして公開されていない。

昨日まで真実でなかった、今日変わったこと

Flashのリリースで真に変化した三つのこと：

デフォルトのエージェントモデルはもはやProティアではない。 「余裕のある範囲で最良のモデルを使え」というアドバイスは、エージェントワークフローには通用しなくなった。MCPオーケストレーションタスクにおいて、FlashはCompetitorsのProモデルを上回り、かつコストが低い。
GeminiテキストファミリーはAgenticの能力で追いついた。 ローンチ前のドミナントなフレーミングは「GeminiはコーディングとAgentで遅れている」だった。ローンチ後、Flashはほとんどのエージェントスイートをリードし、コーディングでも競争力がある。ナラティブを更新する必要がある。
推論のギャップは縮まらず、広がった。 ARC-AGI-2とHumanity’s Last ExamでのFlashの後退は実際のものだ。6月のProリリースが、Geminiがその特定のギャップを埋められるかどうかの鍵を握るイベントとなった。

デプロイパス

今日の最もクリーンなデプロイ形態は、どのサーフェスを使うかによって異なる：

Google経由の本番API直接利用：Vertex AIまたはAI Studio経由のgemini-3.5-flash。両者とも同一モデルを提供している。
Antigravity内（GoogleのIDE型コーディングサーフェス）：ほとんどのワークフローではgemini-3.1-proからgemini-3.5-flashへのデフォルトモデル切り替えが適切。
マルチベンダールーター内：エージェントオーケストレーションポリシーにgemini-3.5-flashを追加する。MCP / ツール重視のパスではFlashを優先ルーティング；ターミナルコーディングとARCスタイルの推論にはGPT-5.5にフォールバック。
WaveSpeedAI上：WaveSpeedAI LLMエンドポイントは、ひとつのAPIキーの背後で現在のフロンティアテキストモデルへのOpenAI互換アクセスを提供する。Gemini 3.5 Flashの統合が進めば、同一サーフェス上で残りのモデルラインナップとA/Bテストが可能になる。

6月に注目すること

今後4週間で解決する二つのこと：

Gemini 3.5 Proのローンチ。 Flashの推論とLong-contextでの後退が修正されるかどうかへの答えとなる。ProがHumanity’s Last ExamでGemini 3.1 Proを上回り、かつTerminal-BenchでFlashに匹敵するなら、Gemini 3.5ファミリー全体が新しいデフォルトとなる。Proが高コストで後退を補うだけなら、ラインナップは二分化したままだ。
独立したエージェントベンチマークの再現。 GoogleのMCP Atlas / Toolathlon / Finance Agentの数字はファーストパーティによるものだ。興味深い問いは、サードパーティのエージェントベンチマークスイート（LangChain Bench、MetaGPT evalなど）がこのリードを再現するかどうかだ。今後2〜3週間で再現研究を注目してほしい。

それまでの間：Flashはリリース済みで、エージェントオーケストレーションのコストは下がった。今週ほとんどのビルダーが直面する問いは、エージェントパスをOpus 4.7から今すぐgemini-3.5-flashに移行するか、3.5 Proを待つかだ。

ソース：LLM Stats on Gemini 3.5 Flash、Digital Applied agentic coding comparison、Seeking Alpha on agentic benchmark leadership、DataCamp Gemini 3.5 Flash review、Vertex AI release notes。

リリース内容の一覧

エージェントベンチマーク：Flash対Proティア

価格の文脈

本番環境でのFlashの位置づけ

Flashを使うべき場面：

Flashを使うべきでない場面（現時点）：

昨日まで真実でなかった、今日変わったこと

デプロイパス

6月に注目すること

関連記事

Claude Fable 5リリース：SWE-Bench Proで80.3%、Opus 4.8の2倍の価格設定、6月22日まで無料

Gemini 3.5 Proは来月登場——Flashリリースが既に示すもの

Gemini Omni Flash リリース：10秒マルチモーダル動画、SynthIDウォーターマーク対応、音声編集は見送り

Google I/O 2026のGemini 4.0：確認済み情報、匿名ソース情報、そしてビルダーが本当に注目すべきこと

Gemini Omniデモがリーク — GoogleのNew動画モデルが実際にできること

GoogleのミステリアスなOmniビデオモデル：I/O 2026直前のGemini UIリークが示すもの