Gemini 3.5 Flash 正式發布——Flash 級模型在 Agent 基準測試上超越 Pro 級
Gemini 3.5 Flash 於 I/O 2026 正式推出,預設開啟思考模式,每百萬 token 定價 $1.50/$9,在 MCP Atlas 及大多數 Agent 測試套件上超越 Claude Opus 4.7 與 GPT-5.5。本文分析 Flash 的領先之處、落後之處,以及如何部署。
Google 於 2026 年 5 月 19 日將 Gemini 3.5 Flash 正式推出正式版,與在 I/O 發表的同一天——涵蓋 Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 應用程式,以及搜尋中的 AI 模式。模型 ID 為 gemini-3.5-flash(無預覽後綴),2026 年 5 月快照版本為 3.5-flash-05-2026,定價為每百萬 token 輸入 $1.50 / 輸出 $9.00,快取輸入則為每百萬 token $0.15。
最引人注目的數字在基準測試方面:一個 Flash 等級的模型現在在大多數代理套件上勝過 Pro 等級的前沿模型。Claude Opus 4.7 和 GPT-5.5——兩者都是 Pro 等級,費用都明顯更高——在 MCP Atlas、Toolathlon 和 Finance Agent v2 上落後於 Flash。編碼方面則較為複雜,且有一個明確的類別 Flash 仍然居於下風。以下是完整的評測結果、誠實的取捨分析,以及建議的部署方向。
已推出內容,一覽無遺
| 詳細資訊 | 數值 |
|---|---|
| 模型 ID | gemini-3.5-flash |
| 快照版本 | 3.5-flash-05-2026 |
| 輸入定價 | $1.50/百萬 token |
| 輸出定價 | $9.00/百萬 token |
| 快取輸入 | $0.15/百萬 token |
| 輸入模態 | 文字 + 圖片 + 音訊 + 影片 |
| 輸出模態 | 文字 |
| 上下文視窗 | 1,048,576 輸入 / 65,536 輸出 |
| 思考模式 | 動態思考預設啟用 |
| 工具使用 | 函式呼叫、結構化輸出、搜尋即工具、程式碼執行 |
| 可用性 | Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 應用程式、搜尋中的 AI 模式 |
| 速度聲明 | 輸出 token/秒約為前沿同級模型的 4 倍 |
「思考模式預設啟用」這個細節比規格表看起來更為重要。這並非你每次請求都需要設定的 thinking_budget 參數——Flash 內建了動態推理機制。模型會根據提示自行決定思考的深度。對於將延遲預算納入考量的生產程式碼而言,這與 Sonnet 4.6 的延伸思考切換或 GPT-5.5 的 reasoning 參數是截然不同的部署形態。
代理基準測試:Flash 對比 Pro 等級
跨廠商資料正是 Flash 定位變得清晰的地方。資料來源為 Digital Applied 的代理編碼分析和 LLM Stats 的發布分析中的發布比較:
| 基準測試 | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | 勝者 |
|---|---|---|---|---|
| MCP Atlas | 83.6% | 79.1% | 75.3% | Flash (+4.5 / +8.3) |
| Toolathlon | 56.5% | — | — | Flash |
| Finance Agent v2 | 57.9% | — | — | Flash |
| CharXiv Reasoning | 84.2% | — | — | Flash |
| MMMU-Pro | 83.6% | — | — | Flash |
| SWE-Bench Pro | — | 64.3% | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76.2% | — | 78.2% | GPT-5.5 (+2.0) |
| OSWorld-Verified | — | — | 78.7% | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36.2% | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72.1% | — | 84.6% | GPT-5.5 (+12.5) |
三點解讀:
在代理編排方面,Flash 現在是優先考慮的預設選擇。 MCP Atlas 衡量的是多步驟工具驅動的工作流程——這正是大多數企業代理架構實際部署的使用場景。在此基準測試中以 4.5 個百分點擊敗 Opus,且使用 Flash 定價,這是一個有實質意義的性價比轉變。Toolathlon 和 Finance Agent v2 進一步強化了這個模式:在任何工作屬於代理性質的場合(規劃、呼叫工具、整合結果、反覆迭代),Flash 都處於領先地位。
在終端機式編碼方面,GPT-5.5 仍以些微差距勝出。 Terminal-Bench 2.1 上 2 個百分點的差距並不決定性——但結合 GPT-5.5 在 GDPval-AA(113 Elo)和 OSWorld-Verified 上的優勢,結論是:如果你的工作流程是「給模型一個終端機和一個任務」,GPT-5.5 仍然是正確的選擇。Flash 縮小了差距,但並未超越。
在困難的抽象推理方面,Flash 有真實的弱點。 ARC-AGI-2 在此是最清晰的訊號——Flash 比 GPT-5.5 低了 12.5 個百分點。這與我們昨天注意到 Flash 在 Humanity’s Last Exam 和長上下文檢索方面相較前代 Gemini 3.1 Pro 出現退步的情況一致。Flash 架構顯然以推理深度換取了速度和成本優勢。六月即將推出的 Gemini 3.5 Pro 大概就是針對這個取捨的解答。
定價脈絡
| 模型 | 輸入($/百萬) | 輸出($/百萬) | 輸出比率 | 備註 |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 6.0× | 快取輸入 $0.15 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 5.0× | 100 萬上下文統一費率 |
| Claude Opus 4.7 | $5.00 | $25.00 | 5.0× | Pro 等級推理 |
| GPT-5.5 | $1.25 | $10.00 | 8.0× | 輸入最便宜 |
| Gemini 3.1 Pro(前代) | $2.50 | $15.00 | 6.0× | 比 Flash 貴 40% |
Flash 在兩個維度上均低於 Sonnet 4.6,同時在代理基準測試上超越 Opus 4.7。這是開發者需要消化的定價故事:代理編排的預設選擇,輸入成本剛剛便宜了 50%,輸出成本便宜了 40%,且相比同等級的前代預設選擇擁有明顯更好的基準測試表現。
$0.15/百萬 token 的快取輸入定價,是讓任何以 RAG 或記憶體為主的工作流程數學計算大幅傾斜的關鍵。如果你每次請求都需要輸入 50 萬 token 的快取上下文,Flash 的快取定價大約是 Sonnet 4.6 標準輸入費率的 10%。這不是幾個百分點的利潤差距,而是截然不同的成本等級。
Flash 在今日生產環境中的適用位置
基於基準測試資料,以下是具體的部署建議:
適合使用 Flash 的場景:
- MCP / 工具編排代理。 這是 Flash 真正領先的領域,且價格優勢最大。
- 高流量 API 工作流程,在單位成本比尖峰智慧更重要的場合:資料轉換、分類、結構化擷取、批次處理。
- 多模態管道,接受圖片/音訊/影片輸入並輸出文字——Flash 原生支援所有四種輸入模態。
- 快取密集型工作流程(長上下文 RAG、對話記憶、文件搜尋)——$0.15/百萬 token 的快取輸入是前沿等級中最便宜的。
目前不適合使用 Flash 的場景:
- 困難的抽象推理——ARC-AGI-2 類型的問題。GPT-5.5 是正確選擇。
- 128K+ 的長上下文檢索——Flash 相較前代 Gemini 3.1 Pro 在此出現退步。等待六月的 3.5 Pro。
- 純終端機編碼代理——GPT-5.5 在 Terminal-Bench 上仍有 2 個百分點的優勢,這在多步驟編碼工作流程中會累積放大。
- 需要每次請求控制思考預算的工作負載——Flash 的思考模式是內建的,並未作為參數對外暴露。
今日改變了哪些昨日不成立的事
Flash 發布帶來了三項真實的轉變:
- 預設代理模型不再是 Pro 等級。「使用你能負擔得起的最佳模型」對代理工作流程而言不再是好建議。對於 MCP 編排任務,Flash 在競爭對手的 Pro 模型中勝出,且成本更低。
- Gemini 文字家族在代理能力上追上來了。 發布前,主流觀點是「Gemini 在編碼/代理方面落後」。發布後,Flash 在大多數代理套件中領先,且在編碼方面具有競爭力。這個說法需要更新。
- 推理差距擴大了,而非縮小。 Flash 在 ARC-AGI-2 和 Humanity’s Last Exam 上的退步是真實存在的。六月的 Pro 版本發布,現在是 Gemini 能否填補這個特定差距的關鍵事件。
部署路徑
今日最清晰的部署形態,取決於你所在的平台:
- 直接透過 Google 的生產 API:透過 Vertex AI 或 AI Studio 使用
gemini-3.5-flash。兩者提供相同的模型。 - 在 Antigravity 中(Google 的 IDE 式編碼平台):對大多數工作流程而言,將預設模型從
gemini-3.1-pro換為gemini-3.5-flash是正確的選擇。 - 在多廠商路由器中:將
gemini-3.5-flash加入你的代理編排策略。對 MCP / 工具密集型路徑,優先路由至 Flash;對終端機編碼和 ARC 式推理,退而使用 GPT-5.5。 - 在 WaveSpeedAI 上:WaveSpeedAI LLM 端點透過單一 API 金鑰提供 OpenAI 相容的前沿文字模型存取。隨著 Gemini 3.5 Flash 整合完成,你將能夠在同一平台下對其與其他模型進行 A/B 測試。
六月值得關注的事項
未來四週內將有兩件事見分曉:
- Gemini 3.5 Pro 發布。 這將解答 Flash 在推理和長上下文方面的退步是否得到修正。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro,且在 Terminal-Bench 上與 Flash 旗鼓相當,整個 Gemini 3.5 家族就是新的預設選擇。如果 Pro 只是以更高成本修補了退步問題,這個產品線將繼續呈現分歧狀態。
- 獨立代理基準測試的複現研究。 Google 的 MCP Atlas / Toolathlon / Finance Agent 數字是第一方資料。有趣的問題是,第三方代理基準套件(LangChain Bench、MetaGPT eval 等)是否能複現這個領先優勢。請在未來兩到三週內關注複現研究的結果。
在此之前:Flash 已正式推出,代理編排成本剛剛下降,本週大多數開發者面臨的問題是:要現在就將代理路徑從 Opus 4.7 遷移至 gemini-3.5-flash,還是等待 3.5 Pro?
資料來源:LLM Stats 關於 Gemini 3.5 Flash 的分析、Digital Applied 代理編碼比較、Seeking Alpha 關於代理基準測試領先地位的報導、DataCamp Gemini 3.5 Flash 評測、Vertex AI 發布說明。
