Gemini 3.5 Flash 正式リリース — フラッシュティアモデルがエージェントベンチマークでProティアを上回る
Gemini 3.5 FlashはI/O 2026でGA公開され、デフォルトで思考機能が有効、料金は100万トークンあたり$1.50/$9で、MCP AtlasとほとんどのエージェントスイートでClaude Opus 4.7とGPT-5.5を上回るベンチマーク結果を示した。Flashが勝る点、劣る点、そしてデプロイ方法を解説する。
Googleは2026年5月19日、Gemini 3.5 FlashをI/Oでの発表と同日に一般提供開始した。Gemini API、AI Studio、Antigravity、Vertex AI、Geminiアプリ、SearchのAI Modeにわたって展開されている。モデルIDはgemini-3.5-flash(プレビューサフィックスなし)、2026年5月スナップショットは3.5-flash-05-2026、価格は入力$1.50 / 出力$9.00(100万トークンあたり)、キャッシュ入力は$0.15/1Mトークンとなっている。
注目すべき数字はベンチマーク面にある:Flashティアのモデルが、ほとんどのエージェントスイートでProティアのフロンティアモデルを上回るようになった。Claude Opus 4.7とGPT-5.5——いずれもProクラスで、いずれも明らかに高価——はMCP Atlas、Toolathlon、Finance Agent v2でFlashに後れを取っている。コーディングはより混在した結果となっており、Flashがまだ負けている明確なカテゴリーも存在する。以下では全体像、トレードオフの率直な評価、そしてデプロイ先について解説する。
リリース内容の一覧
| 詳細 | 値 |
|---|---|
| モデルID | gemini-3.5-flash |
| スナップショット | 3.5-flash-05-2026 |
| 入力価格 | $1.50/1Mトークン |
| 出力価格 | $9.00/1Mトークン |
| キャッシュ入力 | $0.15/1Mトークン |
| 入力モダリティ | テキスト・画像・音声・動画 |
| 出力モダリティ | テキスト |
| コンテキストウィンドウ | 入力1,048,576 / 出力65,536 |
| Thinking | 動的Thinking デフォルトでオン |
| ツール使用 | 関数呼び出し、構造化出力、検索ツール、コード実行 |
| 利用可能環境 | Gemini API、AI Studio、Antigravity、Vertex AI、Geminiアプリ、SearchのAI Mode |
| 速度の主張 | フロンティアモデル比で出力トークン/秒が約4倍 |
「Thinkingがデフォルトでオン」という点は、スペックシートが示す以上に重要である。これはリクエストごとに設定するthinking_budgetパラメーターではなく——Flashには動的推論が組み込まれている。モデルはプロンプトに基づいてどれだけ考えるかを自分で決定する。レイテンシーバジェットを価格に織り込む本番コードにとって、これはSonnet 4.6の拡張ThinkingトグルやGPT-5.5のreasoningパラメーターとは異なるデプロイ形態となる。
エージェントベンチマーク:Flash対Proティア
ベンダー横断データこそ、Flashのポジショニングが明確になる部分だ。Digital AppliedのAgenticコーディング分析とLLM Statsのローンチ分析のローンチ比較データから引用する:
| ベンチマーク | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | 勝者 |
|---|---|---|---|---|
| MCP Atlas | 83.6% | 79.1% | 75.3% | Flash (+4.5 / +8.3) |
| Toolathlon | 56.5% | — | — | Flash |
| Finance Agent v2 | 57.9% | — | — | Flash |
| CharXiv Reasoning | 84.2% | — | — | Flash |
| MMMU-Pro | 83.6% | — | — | Flash |
| SWE-Bench Pro | — | 64.3% | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76.2% | — | 78.2% | GPT-5.5 (+2.0) |
| OSWorld-Verified | — | — | 78.7% | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36.2% | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72.1% | — | 84.6% | GPT-5.5 (+12.5) |
この結果から三つの読み取りができる:
エージェントオーケストレーションにおいて、Flashは今や最初に選ぶべきデフォルトとなった。 MCP Atlasはマルチステップのツール駆動型ワークフローを測定する——実際にほとんどのエンタープライズエージェントスタックが展開するユースケースだ。Flash価格でこのベンチマークでOpusを4.5ポイント上回ることは、コストパフォーマンス面での意味ある変化である。ToolathlonとFinance Agent v2もパターンを裏付けている:作業がエージェント的(計画、ツール呼び出し、結果統合、反復)なところでは、Flashがリードしている。
ターミナル型コーディングでは、GPT-5.5がわずかに勝る。 Terminal-Bench 2.1での2ポイント差は決定的ではないが——GDPval-AA(113 Elo)とOSWorld-VerifiedでのGPT-5.5のリードと合わせて考えると、「モデルにターミナルとタスクを与える」ワークフローにはGPT-5.5が依然として正しい選択という読み取りができる。Flashはギャップを縮めたが、リードを覆すには至っていない。
難易度の高い抽象的推論において、Flashには明確な弱点がある。 ARC-AGI-2がここで最も明確なシグナルとなっており——FlashはGPT-5.5に12.5ポイント差をつけられている。これは昨日指摘した、Flashが前世代のGemini 3.1 ProとのHumanity’s Last ExamおよびLong-contextリトリーバルで後退した点と一致している。Flashアーキテクチャは明らかに推論の深さをスピードとコストのために犠牲にした。6月に登場するGemini 3.5 Proが、そのトレードオフへの答えとなるはずだ。
価格の文脈
| モデル | 入力($/1M) | 出力($/1M) | 出力比率 | 備考 |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 6.0× | キャッシュ入力$0.15 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 5.0× | 1Mコンテキスト均一 |
| Claude Opus 4.7 | $5.00 | $25.00 | 5.0× | Proティア推論 |
| GPT-5.5 | $1.25 | $10.00 | 8.0× | 最安値の入力 |
| Gemini 3.1 Pro(旧世代) | $2.50 | $15.00 | 6.0× | Flashより40%高価 |
FlashはSonnet 4.6より入出力ともに安く、エージェントベンチマークではOpus 4.7をリードしている。ビルダーが把握すべき価格の話はここにある:エージェントオーケストレーションのデフォルトは、入力で50%、出力で40%安くなり、同ティアの以前のデフォルトより意味ある優れたベンチマークプロファイルを持つようになった。
$0.15/1Mキャッシュ入力の価格設定は、RAGやメモリーを多用するワークフローにとって計算を大きく有利に傾ける。リクエストごとに500Kトークンのキャッシュコンテキストを投入する場合、FlashのキャッシュティアはSonnet 4.6の標準入力レートの約10%となる。これはわずか数パーセントポイントのマージンではなく、まったく異なるコストクラスだ。
本番環境でのFlashの位置づけ
ベンチマークデータに基づく具体的なデプロイ判断:
Flashを使うべき場面:
- MCP / ツールオーケストレーションエージェント。 ここはFlashが真にリードしており、価格面での優位が最大となる。
- ユニットコストがピーク性能より重要な高ボリュームAPIワークフロー:データ変換、分類、構造化抽出、バッチ処理。
- 画像・音声・動画入力をテキスト出力に変換するマルチモーダルパイプライン ——Flashは4つの入力モダリティをネイティブサポートしている。
- キャッシュを多用するワークフロー(Long-context RAG、会話メモリー、ドキュメント検索)——$0.15/1Mキャッシュ入力はフロンティアティアで最安値。
Flashを使うべきでない場面(現時点):
- 難易度の高い抽象的推論 ——ARC-AGI-2スタイルの問題。GPT-5.5が正しい選択。
- 128K+でのLong-contextリトリーバル ——Flashは前世代のGemini 3.1 Proより後退している。6月の3.5 Proを待つべき。
- 純粋なターミナルコーディングエージェント ——GPT-5.5はTerminal-Benchでまだ2ポイントのエッジを持っており、それがマルチステップコーディングワークフローで積み重なる。
- リクエストごとにThinkingバジェットを制御する必要があるワークロード ——FlashはThinkingが組み込まれており、パラメーターとして公開されていない。
昨日まで真実でなかった、今日変わったこと
Flashのリリースで真に変化した三つのこと:
- デフォルトのエージェントモデルはもはやProティアではない。 「余裕のある範囲で最良のモデルを使え」というアドバイスは、エージェントワークフローには通用しなくなった。MCPオーケストレーションタスクにおいて、FlashはCompetitorsのProモデルを上回り、かつコストが低い。
- GeminiテキストファミリーはAgenticの能力で追いついた。 ローンチ前のドミナントなフレーミングは「GeminiはコーディングとAgentで遅れている」だった。ローンチ後、Flashはほとんどのエージェントスイートをリードし、コーディングでも競争力がある。ナラティブを更新する必要がある。
- 推論のギャップは縮まらず、広がった。 ARC-AGI-2とHumanity’s Last ExamでのFlashの後退は実際のものだ。6月のProリリースが、Geminiがその特定のギャップを埋められるかどうかの鍵を握るイベントとなった。
デプロイパス
今日の最もクリーンなデプロイ形態は、どのサーフェスを使うかによって異なる:
- Google経由の本番API直接利用:Vertex AIまたはAI Studio経由の
gemini-3.5-flash。両者とも同一モデルを提供している。 - Antigravity内(GoogleのIDE型コーディングサーフェス):ほとんどのワークフローでは
gemini-3.1-proからgemini-3.5-flashへのデフォルトモデル切り替えが適切。 - マルチベンダールーター内:エージェントオーケストレーションポリシーに
gemini-3.5-flashを追加する。MCP / ツール重視のパスではFlashを優先ルーティング;ターミナルコーディングとARCスタイルの推論にはGPT-5.5にフォールバック。 - WaveSpeedAI上:WaveSpeedAI LLMエンドポイントは、ひとつのAPIキーの背後で現在のフロンティアテキストモデルへのOpenAI互換アクセスを提供する。Gemini 3.5 Flashの統合が進めば、同一サーフェス上で残りのモデルラインナップとA/Bテストが可能になる。
6月に注目すること
今後4週間で解決する二つのこと:
- Gemini 3.5 Proのローンチ。 Flashの推論とLong-contextでの後退が修正されるかどうかへの答えとなる。ProがHumanity’s Last ExamでGemini 3.1 Proを上回り、かつTerminal-BenchでFlashに匹敵するなら、Gemini 3.5ファミリー全体が新しいデフォルトとなる。Proが高コストで後退を補うだけなら、ラインナップは二分化したままだ。
- 独立したエージェントベンチマークの再現。 GoogleのMCP Atlas / Toolathlon / Finance Agentの数字はファーストパーティによるものだ。興味深い問いは、サードパーティのエージェントベンチマークスイート(LangChain Bench、MetaGPT evalなど)がこのリードを再現するかどうかだ。今後2〜3週間で再現研究を注目してほしい。
それまでの間:Flashはリリース済みで、エージェントオーケストレーションのコストは下がった。今週ほとんどのビルダーが直面する問いは、エージェントパスをOpus 4.7から今すぐgemini-3.5-flashに移行するか、3.5 Proを待つかだ。
ソース:LLM Stats on Gemini 3.5 Flash、Digital Applied agentic coding comparison、Seeking Alpha on agentic benchmark leadership、DataCamp Gemini 3.5 Flash review、Vertex AI release notes。
